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入 了 大 数据 时 代 。 








无 论 是 每 天 上 网 看 网 页 、 聊 QQ、 聊 微 信 ， 或 者 登录 银行 、 网 购 、 
买 票 ， 或 者 出 行 、 投 宿 ， 甚 至 是 出 入 任何 公众 场合 、 驾 车 、 用 水 用 
电 .………. 我 们 无 时 无 刻 不 在 生产 着 各 种 数据 。 而 同时 我 们 也 在 消费 着 其 他 
人 生产 的 数据 ， 我 们 使 用 的 众多 家 电 产 品 ， 每 一 个 设计 细节 都 融入 了 设 
计 者 对 用 户 体验 数据 的 调查 与 分 析 ; 我 们 使 用 的 每 一 部 手机 、 每 一 台电 
脑 ， 每 一 个 部 件 的 产 出 都 融入 着 多 得 无 法 想象 的 指标 数据 控制 下 的 生产 
与 监控 ， 我 们 访问 的 每 一 个 网 页 、 每 一 个 软件 ， 每 一 次 享受 到 的 贴心 的 

品 改动 和 服务 的 升级 ， 无 不 浸透 着 无 数 的 数据 汇集 与 精细 的 分 析 和 反 
饥 。 这 是 一 场 慢 慢 到 来 的 、 贯 穿 所 有 产业 的 革命 ， 这 是 一 次 润 物 细 无 声 
的 各 行业 精耕细作 的 开端 。 














不 管 我 们 是 不 是 愿意 ， 不 管 我 们 有 没有 意识 到 ， 我 们 现在 已 经 号 处 
大 数据 时 代 的 奇 点 ， 而 未 来 要 迎接 的 是 大 数据 奇 点 爆炸 给 我 们 带 来 的 冲 
i7. FAN iii 22 7] RO S DOR HUIUS. Bear res Bee OBO B E HS 
力 。 





在 这 一 次 远航 中 ， 我 们 不 必 担 心目 己 的 能 力 水 平 无 法 感知 数据 这 种 
BERETTA UR. AN FELD BRE XE TERT] E EE LECT TIRE SU EH. 7 o 


请 相信 我 ， 这 是 一 本 通俗 易 懂 的 大 数据 图 书 ， 这 是 一 本 轻松 愉悦 的 
数据 挖掘 和 机 器 学 习 的 读本 ， 这 是 一 本 没有 门槛 的 机 融 学 习 实战 手册 。 
让 我 们 一 起 扬帆 远航 吧 ! 





本 书 特色 





从 行为 脉络 来 看 ， 本 书 基本 上 是 从 数据 统计 、 数 据 指标 理解 、 数 据 
模型 、 聚 类 /分 类 与 机 器 学 习 、 数 据 应 用 、 大 数据 框架 补充 知识 ， 以 及 
扩展 讨论 这 样 的 角度 来 层 层 深入 完成 的 。 





这 种 方式 会 给 读者 比较 好 的 带 入 感 ， 让 大 家 一 一 尤其 是 不 擅长 数学 
的 读者 降低 对 大 数据 与 机 器 学 习 算 法 的 妨 惧 感 。 如 果 读 者 朋友 对 排列 组 
合 、 统 计 分 布 这 些 基础 知识 比较 了 解 ， 完 全 可 以 考虑 跳 过 这 些 部 分 直接 
去 读 后 面 更 感 兴趣 的 内 容 。 











为 了 调 市 阅读 气氛 ， 我 们 还 尝试 加 入 了 一 些 漫画 插图 。 为 了 让 读者 
朋友 能 够 更 快 地 进行 实践 ， 我 们 几乎 在 每 一 个 算法 讲解 后 都 配 有 Python 
或 者 SQL 语言 的 实现 部 分 。 相 信 这 些 能 够 帮助 大 家 更 快 、 更 轻松 地 阅读 
ANB o 


读者 对 象 


C1) 对 大 数据 感 兴 趣 但 是 完全 不 了 解 的 技术 人 员 。 
(20 对 机 器 学 习 和 数据 挖掘 比较 感 兴 趣 的 技术 人 员 。 


(3) 大 数据 初级 从 业 人 员 。 


如 何 阅 读本 书 


本 书 一 共 分 为 18 章 。 





第 1 章 ~ 第 5 章 为 入 门 押 需 基 础 知识 及 对 数据 指标 运营 的 阐述 。 





第 6 章 ~ 第 10 章 是 对 数据 挖掘 基础 知识 与 算法 的 介绍 。 





第 11 章 ~ 第 18 章 为 生产 应 用 与 高 级 扩展 。 








其 中 ， 第 1 章 ~ 第 15 章 正文 内 容 ， 以 及 第 17 章 、 第 18 章 的 正文 内 容 由 


高 扬 编 写 。 
全 书 所 有 的 Python 代码 由 卫 巍 编写 与 补充 整理 。 


第 16 音 、 附 录 全 部 由 尹 会 生 编 写 。 





全 书 所 有 的 漫画 插画 由 万 娟 创作 完成 。 


勤 误 和 文 持 


由 于 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准 
确 的 地 方 ， 尽 请 读者 批评 指正 。 如 果 你 有 更 多 的 宝贵 意见 ， 欢 迎 扫 摘 下 
方 的 二 维 码 ， 关 注 “ 奇 点 大 数据 ?” 微 信 公众 号 和 我 们 进行 互动 讨论 。 关 注 
大 数据 尖端 撤 术 有 发展， 关注 “ 奇 点 大 数据 ”。 





同时 ， 你 也 可 以 通过 邮箱 77232517@qq.com 联 系 到 我 ， 期 待 能 够 得 
到 你 的 真 扫 反馈， 在 技术 之 路 上 互 勉 共 进 。 
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TRIS 大 数 据 产 业 


1.1 大 数据 产业 现状 


大 数据 是 近 几 年 来 部 一 直 非 常 火 热 的 一 个 名 词 ， 似 乎 是 伴随 着 “ 互 
联网 ”的 逐渐 发 展 所 出 现 的 一 个 新 名 词 。 我 们 在 天 天 听 着 “互联 网 +” 的 同 
时 也 在 听 说 “大 数据 +?”。 





大 数据 其 实 是 一 个 比较 抽象 和 党 统 的 概念 ， 应 该 说 这 个 词 是 为 了 涵 
兰 性 地 表达 一 系列 生产 和 业务 行为 的 一 个 统称 。 但 是 也 正 是 由 于 这 种 抽 
象 和 过 于 简略 的 称谓 方式 ， 让 每 个 人 都 容易 对 这 个 词 产 生 见 仁 见 智 的 不 
同 视角 的 印象 或 者 看 法 。 





大 数据 是 一 个 以 数据 为 核心 的 产业 ， 是 一 个 围绕 大 数据 生命 周期 不 
盯 循 环 往复 的 生产 过 程 ， 同 时 也 是 由 多 种 行业 分 工 和 协同 配合 而 产生 的 
一 个 复合 性 极 高 的 行业 。 

在 我 看 来 ， 大 数据 产业 生产 流程 从 数据 的 生命 周期 的 传导 和 演变 上 
可 以 分 为 这 样 几 个 部 分 : 数据 收集 、 数 据 存储 、 数 据 建 模 、 数 据 分 析 、 
数据 变现 。 





其 中 每 个 环节 都 是 非常 重要 的 数据 生命 环节 ， 每 个 环节 的 生产 加 工 
行为 都 是 有 其 价值 的 ， 并 且 每 个 环节 做 到 极致 都 可 以 成 就 一 个 伟大 的 公 





司 。 整 个 完整 的 产业 生态 圈 就 是 大 数据 ， 它 的 缩影 也 渗透 在 任何 一 家 以 
数据 作为 运营 基础 的 公司 中 。 





根据 麦肯锡 2011 年 发 布 的 一 份 研究 报告 ， 到 2018 年 世界 范围 内 将 会 
出 现 高 达 14 万 ~19 万 的 “大 数据 ?岗位 空缺 。 而 艾 瑞 咨询 集团 在 “2014 年 
会 "上 曾 指出 ， 全 球 数 据 量 每 18 个 月 翻 一 番 ， 到 2015 年 ， 中 国 专用 数据 
分 析 人 员 预 计 缺 口 1400 万 。 





可 以 看 到 ， 在 仅仅 三 四 年 的 时 间 间 阳 上 ， 两 家 咨询 公司 做 出 的 预测 
都 很 大 胆 ， 但 是 两 个 估算 数字 相差 也 确实 非常 悬殊 。 完 竟 哪 个 数字 更 贴 
近 “ 事 实 ” 并 不 好 判断 ， 因 为 大 家 对 “大 数据 ”的 概念 边界 理解 可 能 有 很 大 
的 偏差 ， 估 算出 现 偏 甜 是 必然 的 ， 但 是 有 一 点 可 以 肯定 ， 大 数据 人 才 缺 
口 一 定 古 未 来 几 年 非 第 显著 的 问题 。 














2015 年 12 月 21 日 ， 全 球 第 一 家 大 数据 交易 所 一 一 贵阳 大 数据 交易 所 
经 过 半年 多 的 发 展 ， 交 易 金额 已 突破 6000 万 元 人 民 币 ， 会 员 数 量 超过 
300 家 ， 接 入 贵阳 大 数据 交易 所 的 数据 源 公 司 超过 100 家 ， 数 据 总 量 超过 
10 PB， 己 发 生 实际 交易 的 会 员 超 过 70 家 。 预 计 在 未 来 3~5 年 ， 交 易 所 日 
交易 额 将 突破 100 亿 元 趾 。 








截至 目前 ， 中 国境 内 除了 贵阳 大 数据 交易 所 以 外 ， 还 有 长 江 大 数据 
交易 所 、 东 湖 大 数据 交易 所 、 寺 州 大 数据 交易 所 等 十 余 家 大 数据 交易 所 
挂牌 营业 。 





2016 年 1 月 ， 阿 里 云 的 “ 数 加 ”大 数据 平台 和 人 金山 云 的 KMR 平 台 等 国 
内 大 品牌 去 产品 供应 商 的 重 磅 产品 先后 登场 ， 几 乎 所 有 有 远见 的 云 产 品 
巨 辟 资本 都 在 向 大 数据 产业 链 集中 。 但 是 这 块 和 蛋糕 似乎 有 点 太 大 了 ， 只 
能 边 烘 焙 边 分 制 ， 谁 也 没 办 法 一 下 子 全 吃 掉 。 





1] 来 自 《 新 华 网 》 的 报道 


1.2 ”对 大 数据 产业 的 理解 








“大 数据 ”这 个 人 造 词汇 其 实 很 容易 产生 不 少 误解 ， 尤 其 是 这 
个 “大 ?" 字 ， 很 容易 让 人 感 党 ， 数 据 量 必须 大 ， 而 且 特 别 大 ， 越 大 越 能 形 
成 产业 ， 也 越 有 价值 。 其 实 这 真 的 是 “大 数据 ”给 人 带 来 的 误导 。 大 数据 
产业 的 存在 其 实 和 其 他 产业 并 无 二 致 ， 本 映 是 为 了 给 其 他 产业 提供 服 
务 。 











做 个 假设 ， 假 如 现在 给 石油 产业 冠 以 “大 石油 ”产业 的 名 字 ， 那 么 会 
影响 石油 行业 本 喘 对 其 他 行业 的 服务 样 态 吗 ? 应 该 不 会 。 


在 “大 石油 ”产业 里 ， 同 样 有 人 从 事 看 这 样 的 工作 内 容 : 石油 勘探 、 
石油 开采 、 石 油 运 输 、 石 油 提炼 、 石 油 产品 销售 等 多 个 细 分 领域 和 环 


4E 


Tis 














最 后 提供 给 社会 的 是 由 大 量 人 工 和 智慧 凝结 在 石油 产品 上 的 服务 ， 
而 这 些 服务 极 大 地 方便 并 满足 了 社会 各 领域 对 于 工业 能 源 、 建 筑 材 料 、 
食品 包装 、 服 装 面料 、 模 型 器 具 、 日 杂 用 品 等 多 种 制造 与 使 用 的 需求 。 
试想 如 果 没 有 石油 ， 也 束 没 有 廉价 汽车 与 航空 动力 ， 尤 其 是 没有 乙 焕 等 
重要 化 工 原材料 的 来 源 ， 是 否 存在 塑料 这 样 一 种 廉价 的 工业 制造 材料 都 
很 难说 ， 那 么 各 个 产业 则 需要 用 其 他 造价 更 为 蝇 昂 的 材料 对 其 进行 取 
代 ， 更 不 用 提 家 用 的 天 然 气 和 液化 石油 气 了 ， 人 们 只 能 再 去 寻找 其 他 能 

















源 : BANU KARR, BAG E ESL — MA. MTZ 
所 以 选用 石油 作为 整个 产业 链 的 根源 ， 并 把 它 发 展 成 一 个 完整 的 产业 也 
征 由 于 这 样 的 原因 ， 大 概 这 个 逻辑 是 比较 容易 理解 的 。 








类 比 一 下 “大 数据 ”产业 ， 数 据 收集 、 数 据 传输 、 数 据 存储 、 数 据 建 
模 、 数 据 分 机 、 数 据 交 易 贯 罕 了 大 数据 产业 的 完整 产业 链 。 在 这 个 产业 
链 里 同样 缠 含 着 和 “大 石油 ”一 样 的 东西 ， 这 个 东西 是 什么 ? 


数据 通过 各 种 软件 进行 收集 ， 通 过 网 络 进 行 传输 ， 通 过 云 数据 中 心 
进行 存储 ， 通 过 数据 科学 家 或 者 行业 专家 进行 建 模 和 加 工 ， 最 后 数据 分 
析 得 到 的 是 一 种 知识 ， 是 一 种 人 们 通过 数据 洞悉 世界 的 能 力 。 数 据 之 间 
本 来 彼此 错综复杂 的 潜在 关系 会 使 得 大 量 队 并 而 多 来 源 的 数据 同时 出 现 
在 一 个 舞台 后 显得 更 为 有 趣 ， 大 量 看 似 个 相关 的 事情 却 能 够 通过 观 穴 与 
分 析 后 告诉 人 们 更 多 背后 的 因果 。 这 些 因果 联系 的 意义 会 让 人 们 在 各 个 
方面 能 够 推测 未 来 趋势 ， 减 少 试 错 的 机 会 ， 减 少 成 本 ， 降 低 风 险 ， 解 放 
NA. BRAWN KA KAGE WA MES IS ATE o 














1.3 大 数据 人 才 


1.3.1 供需 失衡 


大 数据 产业 既然 如 此 和 炙手可热， 那么 大 数据 人 才 的 待遇 如 何 呢 ? 这 
一 点 其 实 不 用 多 说 ， 只 要 大 家 时 第 天 注 一 些 猎头 QQ 群 的 状态 ， 或 者 猫 
头 朋 友 的 签名 档 内 容 ， 再 或 者 干脆 到 “ 狂 聘 网 “前 程 无 忱 ?等 专业 的 人 
才 中 介 网 站 去 看 看 就 会 了 然 于 胸 一 一 30 万 年 薪 找 不 到 人 ，40 万 年 薪 找 不 
到 人 ，50 万 、60 万 还 是 找 不 到 人 ， 一 时 间 可 谓 洛 阳 纸 贵 ， 似 乎 市 场 上 的 
大 数据 人 才 是 “一 将 难 求 "。 这 也 从 一 个 侧面 说 明 ， 很 多 公司 愿意 化 这 人 么 
多 薪水 雇佣 一 位 大 数据 人 才 ， 不 管 他 的 头衔 是 大 数据 科学 家 ， 还 是 大 数 
据 架 构 师 ， 抑 或 是 大 数据 产品 经 理 ， 很 显然 这 些 公 司 都 是 把 大 数据 产业 
发 展 作为 目 己 的 经 营 战略 的 重要 组 成 部 分 来 看 符 。 











大 数据 人 才 的 一 将 难 求 其 实 不 奇怪 ， 因 为 人 才 既 然 是 市 场 的 一 部 
分 ， 是 一 种 特殊 的 “商品 ”， 那 就 必然 受到 市 场 因素 的 调节 ， 供 需 严 重 失 
衡 才 会 有 这 样 的 现象 。 但 是 ， 为 什么 大 数据 人 才 会 供需 严重 失衡 呢 ? 原 
因 有 以 下 两 个 。 














C1) 大 数据 产业 发 展 迅速 ， 很 多 公司 都 越 来 越 意识 到 要 将 大 数据 
作为 目 己 公 司 经 营 战 略 不 可 或 缺 的 一 部 分 ， 就 像 销 售 、 生 产 、 公 关 这 样 


HEZA Iki. ACA RER ! 











(20 大 数据 人 才 培 养 成 本 大 局 不 下 ， 培 养 周期 长 ， 成 材 率 相对 较 
低 ， 这 也 是 导致 大 数据 人 才 人 缺乏 的 一 个 非常 重要 的 原因 。 人 才 供 应 不 
足 ! 





1.3.2 AJJI 











从 目前 市 场 上 的 人 才 需 求 观点 来 看 ， 大 数据 人 才 大 致 可 以 分 为 以 下 
3 个 方 同 。 








(1) 仿 重 基建 与 架构 的 “大 数据 染 构 ” 方 同 。 


(2) 偏重 建 模 与 分 析 的 “大 数据 分 析 ” 方 问 。 





(3) 偶 重 应 用 实现 的 “大 数据 开发 ” 方 辣 。 


当然 ， 也 有 理想 主义 者 会 认为 能 来 个 三 合 一 的 人 才 就 更 好 了 ， 但 是 
知识 客 度 和 知识 深度 本 号 就 是 一 组 了 矛盾， 毕竟 对 于 有 限 的 学 习 时 间 和 精 
力 ， 能 够 在 一 方面 做 到 运用 自如 已 属 不 易 。 











1. 大 数据 架构 方 回 





大 数据 架构 方向 的 人 才 更 多 注重 的 是 Hadoop、Spark、Storm 等 大 数 
据 框架 的 实现 原理 、 部 署 、 调 优 和 稳定 性 问题 ， 以 及 它们 与 Flume、 
Kafka 等 数据 流 工具 以 及 可 视 化 工具 的 结合 技巧 ， 再 有 就 是 一 些 工具 的 
商业 应 用 问题 ， 如 Hive、Cassandra、HBase、PrestoDB 等 。 能 够 将 这 些 
概念 理解 清楚 ， 并 能 够 用 辩证 的 技术 观点 进行 组 合 使 用 ， 达 a 到 软 / 人 硬件 
资源 利用 的 最 大 化 ， 服 务 提供 的 稳定 化 ， 这 是 大 数据 架构 人 才 的 目标 。 








以 下 是 大 数据 架构 方 回 研究 的 主要 方面 。 





(1) 架构 理论 : 关键 词 有 高 并 发 、 高 可 用 、 并 行 计算 、 
MapReduce、Spark 等 。 


(2) 数据 流 应 用 : 关键 词 有 Flume、Fluentd、Kafka、ZMQ 等 。 
(3) 存储 应 用 : 关键 词 有 HDFS、Ceph 等 。 
(4) 软件 应 用 : 关键 词 有 Hive、HBase、Cassandra、PrestoDB 等 。 


(5) 可 视 化 应 用 ， 关 键 词 有 HightCharts、ECharts、D3、HTML5、 
CSS3 等 。 


大 数据 架构 师 除了 最 后 可 视 化 的 部 分 不 需要 太 过 注意 但 是 要 做 基 

本 的 原理 了 解 ) 以 外 ， 其 他 的 架构 理论 层面 、 数 据 流 层面 、 存 储 层面 、 

软件 应 用 层面 等 都 需要 做 比较 深入 的 理解 和 落地 应 用 。 尤 其 是 需要 有 至少 
A 





整 的 应 用 场景 ， 在 访问 强度 、 实 现成 本 、 功 能 应 用 层面 都 能 满足 需求 ， 
这 是 一 个 合格 的 大 数据 架构 师 必 须 完成 的 最 低 限 要 求 。 











2. 大 数据 分 析 方 回 





大 数据 分 析 方 向 的 人 才 更 多 注重 的 是 数据 指标 的 建立 ， 数 据 的 统 
计 ， 数 据 之 间 的 联系 ， 数 据 的 深度 挖掘 和 机 器 学 习 ， 并 利用 探索 性 数据 








分 析 的 方式 得 到 更 多 的 规律 、 知 识 ， 或 者 对 未 来 事物 预测 和 预 判 的 手 
段 。 


以 下 是 大 数据 分 析 方 向 研究 的 主要 方面 。 


(1) 数据 库 应 用 : 关键 词 有 RDBMS、NoSQL、MySQL、Hive、 


Cassandra 等 。 
(2) 数据 加 工 : 关键 词 有 ETL、Python 等 。 
(3) 数据 统计 : 关键 词 有 统计 、 概 率 等 。 


(4) 数据 分 析 : 关键 词 有 数据 建 模 、 数 据 挖掘 、 机 器 学 习 、 回 归 


Di. RR, DR, DAES. 

此 外 还 有 一 个 方面 是 业务 知识 。 

其 中 ， 数 据 库 应 用 、 数 据 加 工 是 通用 的 技术 技巧 或 者 工具 性 的 能 
力 ， 主 要 是 为 了 帮助 分 析 师 调用 或 提取 自己 需要 的 数据 ， 毕 竞 这 些 技巧 


的 学 习 成 本 相对 较 低 ， 而 且 在 工作 场景 中 不 可 或 缺 ， 而 每 次 都 求人 去 取 
数据 很 可 能 会 消耗 过 多 的 时 间 成 本 。 











数据 统计 、 数 据 分 析 是 分 析 师 的 重头 戏 ， 一 般 来 说 这 两 个 部 分 是 分 
析 师 的 主 业 ， 要 有 比较 好 的 数学 又 养 或 者 思维 方式 ， 而 且 一 般 来 说 数学 
专业 出 身 的 人 会 有 相当 的 优势 。 最 后 的 业务 知识 方面 就 是 干 姿 百 态 了 ， 





毕竟 每 家 行业 甚至 每 家 公司 的 业务 形态 都 是 和 干 差 万 别 的 ， 只 有 对 这 些 业 
务 形态 和 业务 流程 有 了 充分 的 理解 才能 对 数据 分 析 做 到 融会 贯通 ， 才 有 
可 能 正确 地 建立 模型 和 解读 数据 。 





3. 大 数据 开 友 方 癌 





大 数据 开发 方向 的 人 才 更 多 注重 的 是 服务 器 端 开 发 ， 数 据 库 开发 ， 
呈现 与 可 视 化 ， 人 机 交互 等 衔接 数据 载体 和 数据 加 工 各 个 单元 以 及 用 户 
的 功能 落地 与 实现 。 





以 下 是 大 数据 开发 研究 的 主要 方面 。 





(1) 数据 库 开 发 : 关键 词 有 RDBMS、NoSQL、MySQL Hive 


" 
等 。 


(2) 数据 流 工 具 开 发 :关键 词 有 Flume、Heka、Fluentd、Kafka、 


ZMQ 等 。 


(3) 数据 前 端 开 发 : 关键 词 有 HightCharts、ECharts、JavaScript、 
D3、HTML5、CSS3 等 。 





(4) 数据 获取 开发 : REAM. ail. BARSA, XA 


Ye Ay 





可 以 注意 到 ， 大 数据 开发 职 种 和 大 数据 架构 方向 有 很 多 关键 词 虽 然 


是 重合 的 ， 但 是 措辞 不 一 样 ， 一 个 是 “应 用 ”， 一 个 是 “开发 ”>。 区 别 在 
T, “应 用 ”更 多 的 是 懂得 这 些 这 种 技术 能 为 人 们 提供 什么 功能 ， 以 及 使 
用 这 种 技术 的 优 缺 点 ， 并 擅长 做 取舍 ;“ 开 发 ”更 注重 的 是 熟练 掌握 ， 人 快 
速 实现 。 





最 后 一 个 方面 一 一 数据 获取 开发 与 前 面 的 数据 库 开 发 、 数 据 流 工具 
开发 、 数 据 前 端 开发 略 有 不 同 ， 它 出 现 的 时 间 相 对 较 晚 ， 应 用 面相 对 较 
罕 。 现 在 很 多 数据 公司 ， 如 汤 森 路 透 、 弦 博 等 咨询 公司 的 数据 除了 从 专 
业 行 业 公司 直接 得 到 以 外 ， 很 多 也 是 从 互联 网 上 扑 取 的 ， 这 个 过 程 中 也 
涉及 一 些 关 键 技术 。 





13.3 环节 和 工具 


前 面 提 到 过 ， 大 数据 从 数据 的 生命 周期 的 传导 和 演变 上 可 以 分 为 这 
样 几 个 部 分 : 数据 收集 ， 数 据 存储 ， 数 据 建 模 ， 数 据 分 析 ， 数 据 变现 ， 
如 图 1-1 所 示 。 





图 1-1 数据 生命 周期 中 的 环节 


1. 数 据 收集 


完成 数据 收集 是 做 大 数据 的 第 一 步 ， 这 里 请 注意 ， 数 据 的 收集 和 平 
时 在 业务 生产 库 上 的 做 法 不 太一 样 ， 而 是 更 像 以 前 数据 仓库 里 的 收集 方 
式 。 





方法 一 : 快照 法 。 可 以 每 天 、 每 周 、 每 月 用 数据 快照 的 方式 把 当 
前 这 一 瞬间 的 茶 数 据 的 状态 复制 下 来 放 入 相应 的 位 置 一 一 这 个 位 置 就 是 
大 数据 的 数据 中 心 所 采用 的 数据 容 妖 ， 可 以 用 Hive 实 现 ， 也 可 以 用 
Oracle 或 者 其 他 专业 的 数据 仓库 软件 实现 。 





方法 二 : 可 以 使 用 一 些 工 具 来 进行 流 式 的 数据 导入 ， 如 TCP 流 或 者 
HTTP 长 / 短 链 接 。 


2. 数 据 存储 





数据 存储 的 方式 也 是 比较 多 样 的 ， 当 数据 收集 进入 数据 中 心 时 ， 可 
以 考虑 使 用 HDFS 或 者 Ceph 等 开源 并 且 低 成 本 的 方案 ， 数 据 量 较 小 的 时 
候 可 以 采用 NAS 直 接 mount 到 一 台 Linux 服 务 嚣 的 某 挂 载 点 。 比 较 推 荐 
HDFS 和 Ceph 主 要 是 因为 这 两 种 框架 在 业界 已 经 有 了 长 时 间 的 应 用 ， 社 
区 活跃 ， 方 案 成 熟 稳 定 ， 部 署 价格 低廉 且 扩 展 性 极 好 。 








3. 数 据 建 模 


数据 建 模 是 一 个 人 为 因素 影响 比较 大 的 环节 ， 我 们 这 里 提 到 的 数据 
建 模 是 指数 理 关 系 的 梳理 ， 并 根据 数据 建立 一 定 的 数据 计算 方法 和 数据 
指标 。 一 般 来 说 ， 在 一 个 比较 成 熟 的 行业 里 ， 数 据 指标 相对 是 比较 固定 
的 ， 只 要 对 业务 有 足够 的 了 解 是 比较 容易 建立 起 运营 数据 模型 的 。 使 用 
人 们 熟悉 的 SQL 语 言 束 可 以 对 存储 容器 中 的 数据 进行 第 选 和 洗 深 ， 如 末 
数据 存储 的 容器 是 其 他 的 寞 构 容器 ， 如 HBase 或 者 Mongodb 等 ， 就 只 能 
使 用 它们 自己 的 操作 Shell 去 操作 了 。 














在 这 里 需要 提 一 句 ， 有 一 个 比较 重要 的 环节 是 数据 清洗 。 不 同 的 业 
务 习 惯 下 ， 清 洗 有 着 不 同 的 解释 ， 但 核心 思想 都 是 让 数据 中 那些 由 于 误 
传 、 漏 传 、 受 传 等 原因 产生 的 数据 失真 部 分 被 据 弃 在 计算 之 外 。 此 外 ， 
原始 数据 从 非 格 却 化 变 成 格式 化 需要 一 个 “整形 ”的 过 程 ， 目 的 是 让 它 能 
够 和 其 他 数据 进行 参照 来 运算 ， 清 洗 同 样 涵盖 这 个 “整形 ”的 过 程 。 也 有 


人 习惯 把 这 个 环节 直接 放 在 数据 收集 的 部 分 一 次 性 完成 ， 完 竟 哪 种 方式 
比较 好 不 能 一 概 而 论 : 在 数据 收集 的 时 候 就 直接 “整形 完毕， 可 能 会 使 
后 面 的 数据 存储 、 建 模 等 环节 处 理 起 来 成 本 更 低 一 些 ， 这 是 它 的 好 处 ; 
但 是 在 这 个 过 程 中 会 发 生 一 部 分 数据 裁 枉 的 动作 ， 而 裁减 挥 的 数据 所 到 








含 的 信息 以 后 再 想 找 回 是 不 可 能 的 。 识 优 讨 劣 还 是 因地制宜 地 进行 讨论 
比较 好 。 
4. 数 据 分 析 


数据 分 析 是 这 些 环 市 里 面 一 个 比较 重要 的 环节 。“ 分 析 ” 两 个 字 的 含 
义 可 以 包含 两 个 方面 的 内 容 : 一 个 是 在 数据 之 间 尝 试 寻 求 因果 关系 或 影 
啊 的 逻辑 ， 男 一 个 是 对 数据 的 呈现 做 适当 的 解读 。 











这 两 个 方面 或 许 有 重 县 的 部 分 ， 但 是 笔者 认为 这 两 个 方面 还 是 可 以 
分 开 来 理解 的 ， 前 者 偏重 数据 挖 气 、 试 错 与 反复 比 对 ;， 后 者 偏重 业务 结 
合 、 行 业 情 景 珊 入 等 。 但 是 两 者 都 是 货真价实 的 分 析 工 作 ， 这 点 毫 无 疑 
问 。 数 据 分 析 的 工具 在 市面" 上 有 不 少 ， 有 开源 的 ， 也 有 收费 的 ， 到 现 
在 其 实 没 有 特别 好 用 的 ， 大 多 使 用 的 时 候 门 槛 较 高 而 且 使 用 习惯 十 分 西 
方 化 。 目 前 收费 的 软件 里 比较 好 的 有 IBM 的 SPSS、SAP 的 BW/BO， 以 
及 微软 的 SSAS 和 SSRS; 开源 的 软件 里 有 Mahout、Spark ML Lib, 
Python Pandas 等 。 收 费 软件 里 通常 会 把 挖掘 分 析 和 可 视 化 结合 得 比较 
好 ， 而 开源 软件 里 主要 是 封装 的 算法 比较 多 ， 但 是 环节 较为 孤立 ， 绘 
的 丰富 程度 和 美观 程度 会 大 打折 扣 或 者 干脆 没有 ， 那 么 这 个 环节 就 需要 

















使 用 者 自己 想 办 法 了 。 


1.3.4 [DN ES 





大 数据 开发 不 是 一 个 由 大 数据 带 来 的 新 方向 ， 它 更 多 古 迁 移 性 地 使 
用 旧 有 技术 ， 技 术 突 破 也 比较 有 限 ， 上 所 以 这 里 不 做 过 多 的 介绍 。 





1. 大 数据 架构 方 问 








对 于 大 数据 以 构 方 向 ， 在 资料 方面 虽然 近 两 年 涌现 出 很 多 翻译 资 
料 ， 也 有 很 多 国内 高 手写 出 不 少 实战 心得 ， 但 是 对 于 层出不穷 的 优秀 开 
源 框架 来 说 ， 资 料 的 更 新 多 少 显 得 有 些 跟 不 上 脚步 。 这 大 概 古 自学 成 才 
的 大 数据 架构 师 们 很 多 不 得 不 一 边 翻 看 看 英文 文档 ， 一 边 翻 看 着 源 代 
码 ， 一 边 试 来 试 去 的 原因 。 而 同时 ， 越 来 越 多 的 架构 师 们 也 将 上 自己 的 心 
得 写成 越 来 越 多 的 参考 书籍 ， 这 些 书籍 的 丰富 也 使 大 数据 架构 领域 奋战 
的 同行 们 有 了 更 多 的 参考 ， 有 了 更 快 进步 的 动力 。 




















2. 大 数据 分 析 方 回 





对 于 大 数据 分 析 方向 ， 在 淘宝 或 者 京东 上 试 着 翻 看 一 下 ， 其 实 书籍 
比 前 者 要 缺乏 得 多 。 虽 然 有 一 些 不 错 的 数据 挖掘 与 机 器 学 习 的 书 ， 也 有 
一 些 关 于 Mahout、Spark ML Lib 和 文本 挖掘 、 神 经 网 络 的 书 被 摆 上 货 

， 但 是 笔者 也 经 常 听 一 些 同行 抱怨 这 类 书 有 不 少 问 题 不 尽 如 人 意 。 英 
译 中 版 本 的 书 有 不 少 翻译 生 汲 、 阅 读 困 难 ， 而 且 解 析 不 够 细致 ， 默 认 读 











者 已 经 掌握 了 大 量 的 数理 统计 或 概率 学 的 知识 ; 而 Mahout 之 类 开源 数据 
挖掘 项 目的 书籍 ， 要 么 就 是 由 官方 文档 翻译 而 来 新 意 全 无 ， 要 么 就 是 由 
于 成 书 较 慢 早已 落后 于 当前 的 最 新 版 本 ， 所 以 让 人 该 起 来 如 唤 鸡 肋 。 











3. 市 场 参与 








在 我 看 来 ， 大 数据 行业 目前 不 够 繁 末 的 原因 众多 ， 但 是 究 其 根本 残 
是 因为 它 目 前 还 不 是 一 门 “生意 ”距离 大 量 自由 交易 有 价值 的 数据 这 一 
目标 还 相差 太 远 。 这 种 交易 既 存 在 于 公司 和 组 织 之 间 ， 也 存在 于 公司 内 
部 。 现 在 去 看 映 边 最 繁荣 的 市 场 ， 如 大 超市 、 大 型 网 店 ， 它 们 火爆 的 原 
因 关 键 在 于 流量 大 、 交 易 自由 、 交 易 成 本 低 、 交 易 参 与 方 众多 。 大 数据 
行业 想 要 真正 实现 民 性 和 快速 友 展 ， 关 键 在 于 提高 行业 的 市 场 化 普及 
度 。 换 句 话 说 ， 大 数据 市 场 供需 越 丰 富 市 场 束 越 繁 采 。 而 市 场 供需 的 蚂 
宋 靠 的 是 参与 方 的 丰富 ， 以 及 交易 内 容 的 丰富。 















































那么 文 持 参与 方 的 不 断 丰 富 和 交易 内 容 不 断 丰 富 的 源 动 力 是 什么 

We? 当然 是 人 们 经 常 说 的 去 中 心 化 和 降低 参与 门槛 。 说 到 底 ， 让 尽 可 能 
多 的 人 成 为 大 数据 行业 中 的 价值 制造 者 ， 这 可 能 才 是 大 数据 行业 进步 的 
关键 点 所 在 。 大 数据 产业 中 最 有 价值 的 层面 在 哪里 ?应 该 说 ， 在 数据 收 
集 、 数 据 存 储 、 数 据 建 模 、 数 据 分 析 、 数 据 变现 这 几 个 主要 环节 中 ， 只 
有 数据 建 模 和 数据 分 析 这 两 个 环节 离 数 据 变 现 ， 即 创造 价值 更 近 ;， 而 数 
据 收 集 和 数据 存储 这 两 个 环节 做 得 再 好 也 只 是 离 节 约 成 本 更 近 ， 而 对 促 
进 市 场 化 普及 的 帮助 较为 间接 。 














目前 数据 分 析 书 籍 的 缺乏 ， 阅 读 门 槛 的 障碍 ， 业 内 人 十 对 知识 的 
泡 求 ， 种 种 因素 使 我 决心 答 试 着 写 一 本 门槛 更 低 ， 更 易 理解 ， 更 “平民 
化 ”的 数据 挖掘 与 机 器 学 习 的 书籍 。 
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大 数据 产业 已 经 同 我 们 敞开 了 大 门 ， 整 个 产业 才刚 刚 开 始 萌芽 ， 只 
要 我 们 肯 多 进行 观察 、 学 习 和 思考 ， 任 何 领域 任何 业务 都 会 捍 受 到 大 数 
据 产 业 为 我 们 带 来 的 各 种 好 处 。 





笔者 问 过 一 些 试 读 过 本 书 的 朋友 ,他们 有 的 是 大 专 毕 业 ， 有 的 是 大 
学 本 科 毕 业 但 是 由 于 专业 设 定 的 原因 没有 学 过 蜗 等 数学 ， 基 本 还 是 能 够 
AE. 
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数 这 些 概念 基本 没 问 题 ; 


如 果 读 者 对 “一 个 六 面 的 通 子 在 丢 出 后 出 现 2 点 的 概率 是 1/6” 基 本 没 


问题 ; 


如 果 读 者 对 “一 个 久 质 的 硬币 在 扔 出 1000 次 后 ， 正 面 朝 上 和 反面 朝 
上 的 次 数 基 本 各 为 500 次 ” 没 问 题 ， 那 么 请 读者 放心 大 胆 地 跟随 我 们 ， 我 
们 将 用 最 令 人 放松 的 聊天 方式 开始 这 次 轻松 的 白话 数据 挖掘 与 机 器 学 习 
之 版。 





第 2 章 ” 步 入 数据 之 门 


数据 与 数据 应 用 中 的 许多 概念 彼此 有 着 千 丝 万 缕 的 联系 ， 同 时 也 有 
看 概念 上 的 偏重 与 区 别 ， 这 里 先 从 数据 应 用 领域 中 的 常见 概念 聊 起 。 








2.1 什么 是 数据 


数据 是 什么 ?这 几乎 成 为 一 个 人 们 画 视 无 睹 的 问题 。 





有 不 少 朋 友 脑 子 里 可 能 会 直接 冒 出 一 个 词 “ 数 字 ” 一 一 “数字 束 是 数 
据 *， 我 相信 会 有 一 些 朋友 斩钉截铁 地 说 。 





一 些 朋 友 会 在 稍 作 思 考 后 回答 “数字 和 字符 、 字 母 ， 这 些 都 是 数 
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图 2-2 j2 








不 知道 你 现在 是 不 是 正在 纠结 哪个 回答 更 正确 ， 抑 或 第 二 个 回答 更 
合理 一 些 ， 这 里 先 放 一 放 。 先 看 下 面 这 组 例子 (图 2-1) : 





这 里 有 6 个 0， 请 问 它 是 数据 吗 ? 


再 看 这 样 的 例子 (图 2-2) : 


这 里 有 4 个 1 和 2 个 a， 那 么 它 是 数据 吗 ? 


也 许 你 可 能 会 问 , “OBR ET ARIE? ?不错 ， 这 吏 是 我 们 在 认识 
数据 的 过 程 中 存在 的 一 个 很 要 命 的 问题 ， 几 乎 在 我 们 出 发 时 就 拦住 了 我 
们 的 去 路 。 





我 们 回 过 头 再 想 想 刚 才 的 问题 可 能 会 得 到 比较 令 目 己 和 他 人 信服 的 
回答 :“ 承 载 了 信息 的 东西 ? 才 是 数据 ， 换 句 话 说， 不管 是 石头 上 刻 的 
画 ， 或 者 是 小 孩子 在 沙滩 上 下 在 扭 扭 写 出 的 字迹 ， 或 者 是 寻 皮 士 们 在 增 
上 的 涂鸦 ， 只 要 和 它 表 达 一 些 确 实 的 含义 ， 那 么 这 种 符号 就 可 以 被 认为 是 
数据 。 而 没有 承载 信息 的 符号 束 不 是 数据 。 这 个 观点 似乎 看 上 去 要 比 前 
面 的 回答 理性 得 多 ， 也 科学 得 多 ， 但 是 这 个 观点 真 的 不 需要 补充 了 吗 ? 























我 们 假设 这 两 个 例子 都 有 一 些 比较 特殊 的 场景 ， 假 设 第 一 组 里 出 现 
的 6 个 0 其 实 是 时 分 秒 的 简写 ，000000 表 示 00 点 00 分 00 秒 ， 而 如 果 写 作 
112349 则 表示 11 点 23 分 49 秒 ， 那 么 它 是 不 是 也 是 数据 呢 ? 假设 第 二 组 出 
现 的 4 个 1 和 2 个 a 其 实 是 一 组 密码 ，4 个 1 代表 一 个 被 约定 的 地 点 ，aa 代 表 
一 种 被 约定 的 事件 ， 那 这 组 数字 和 字母 的 意义 也 有 了 相应 的 解读 ， 那 么 
它 是 不 是 也 是 数据 呢 ? 

















不 难看 出 ， 一 些 符 写 如 果 想 要 被 认定 为 数据 ， 那 就 必须 承载 一 定 的 
信息 。 而 信息 很 可 能 是 因 场 景 而 定 ， 因 解读 者 的 认 知 而 是， 所 以 一 些 符 
号 是 不 是 可 以 被 当做 数据 ， 有 相当 的 因 系 是 取决 于 解读 者 的 主观 视角 











的 。 不 知道 这 个 观点 你 是 不 是 认可 ， 总 之 这 点 很 重要 。 


2. 什么 是 信和 上 








说 到 这 里 ， 我 的 同事 娟 娟 非常 认真 且 黎 有 介 事 地 跟 我 说 : “我 觉得 
数字 、 字 母 、 图 像 ， 这 些 部 是 数据 ， 跟 信息 不 信息 的 没什么 关系 。” 看 
大 她 认真 地 跟 我 抬杠 ， 我 觉得 鼻 好 ， 人 至 少 在 认识 数据 过 程 中 积极 思考 只 
有 好 处 。 




















信息 一 词 ， 在 没有 学 术 背景 的 情况 下 其 实 有 者 很 多 解释 ， 例 如 ， 广 
播 中 的 声音 、 互 联网 上 的 消息 、 通 信 系 统 中 传输 和 处 理 的 语音 对 象 ， 甚 
至 是 小 区 和 校园 的 消息 看 板 〈 图 2-3) ， 也 就 是 人 类 社会 传播 的 一 切 内 
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(c) 通信 系统 中 的 语音 (b) 消息 看 板 上 的 消息 
图 2-3 ”信息 的 表现 形式 
1948 年 ， 数 学 家 香农 (Claude Elwood Shannon) 在 题 为 《通信 的 数 


学 理论 》 的 论文 中 指出 :“ 信 息 古 用 来 消除 随机 不 定性 的 东西 "”。 这 人 句 话 
如 果 举 个 例子 说 明 ， 大 概 可 以 想象 这 样 一 个 场景 (图 2-4) 。 








图 2-4 场景 1 


我 说 了 两 句 话 : “我 今年 33 岁 。”， “我 明年 34 岁 。” 





那么 第 一 句 话 如 果 是 为 了 向 不 了 解 我 的 人 介绍 我 的 年 龄 而 可 以 算 作 
信息 ， 第 二 句 话 则 不 是 信息 。 至 少 你 会 觉得 说 了 第 一 句 以 后 ， 后 面 这 句 
简直 就 是 废话 ， 因 为 从 第 一 句 话 完全 可 以 推导 出 来 。 





再 如 ， 某 一 天 巴西 足球 队 和 中 国足 球 队 进 行 了 比赛 。 


结果 第 二 天 张 三 告 诉 笔者 , WERE GR o ” 


而 后 李 四 告 诉 笔者 , “昨天 中 国 队 输 了 。” 


再 而 后 王 五 告诉 笔者 , “昨天 的 比赛 不 是 平局 。”《〈 图 2-5) 
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了 ， 李 四 说 中 国 队 输 了 ， 
王 五 说 不 是 平局 






图 2-5 ”场景 2 


前 提 是 只 要 他 们 都 是 说 实话 的 人 ， 那 么 对 于 我 来 说 ， 也 就 只 有 张 三 
的 话 能 算 信 息 ， 李 四 和 王 五 说 的 则 不 能 算 作 信息 。 甚 至 连 张 三 说 的 “ 昨 
天 巴西 队 赢 了 ”这 人 句 话 是 否 能 够 被 算 作 信息 ， 我 们 都 要 表示 怀疑 ， 因 为 
这 也 有 点 “废话 ?的 意味 一 一 但 凡 对 足球 运动 有 点 认识 的 人 都 几乎 可 以 认 
定 ， 即 便 你 不 告诉 我 昨天 巴西 队 赢 了 ， 我 也 能 猜 个 人 九 不 离 十 ， 因 为 可 
能 性 实在 是 太 大 太 大 了 ， 大 到 几乎 是 一 定 的 ， 几 乎 是 毋庸 置疑 的 。 国 足 
的 粉丝 们 请 放下 手中 的 具 鸡 蛋 和 烂 西红柿 ， 听 我 把 例子 讲 完 。 























现在 对 信息 是 什么 清晰 多 了 吧 ? 我 们 可 以 粗略 地 认为 ， 信 息 就 是 那 
些 把 我 们 不 清楚 的 事情 阐明 的 描述 ， 而 已 经 明确 或 者 知晓 的 东西 让 我 们 
再 “知晓 ”一 再 ， 这 些 被 知 会 的 内 容 就 不 再 是 信息 了 。 这 个 概念 是 很 有 用 
的 ， 我 们 后 面 在 讲 信息 论 的 时 候 也 会 再 做 定量 的 说 明 ， 现 在 只 做 一 个 定 
性 的 了 解 。 


数据 和 信息 是 我 们 在 数据 挖掘 和 机 器 学 习 领 域 天 天 要 打交道 的 基 
础 ， 也 是 我 们 研究 的 主要 对 象 。 所 以 对 数据 和 信息 有 一 个 比较 一 致 性 的 
认识 对 后 面 咀 们 讨论 问题 是 非常 有 好 处 的 。 
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算法 这 个 名 称 大 家 应 该 不 陌生 ， 如 果 你 是 一 个 信息 相关 专业 的 本 科 
学 生 ， 至 少 在 本 科 一 年 级 或 者 二 年 级 束 接 触 过 不 少 算法 了 。 随 便 打 开 一 
个 人 力 资 源 网 站 去 搜索 “算法 工程 师 ”， 好 的 算法 工程 师 的 年 薪 能 到 三 五 
十 万 甚至 上 百 万 。 








算法 是 什么 ?算法 可 以 被 理解 为 “计算 的 方法 和 技巧 ”， 在 计算 机 
中 ， 算 法 大 多 数 指 的 就 是 一 段 或 者 几 段 程序 ， 告 诉 计 算 机 用 什么 样 的 逻 
辑 和 步骤 来 处 理 数据 和 计算 ， 然 后 得 到 处 理 的 结果 。 


科班 出 身 的 信息 相关 专业 的 朋友 看 到 这 里 就 会 觉得 比较 亲切 了 ， 经 
典 的 算法 有 很 多 ， 如 * 冒 泡 排序 ”算法 ， 这 几乎 是 所 有 学 习 高 级 语言 
和 “数据 结构 ?课程 的 入 门 必 学 ， 再 如 *“ 八 皇后 问题 > 算法， 这 几乎 也 是 在 
讲 穷 举 计 算 时 的 经 典 保留 算法 案例 〈 就 是 在 国际 象棋 棋盘 上 放 8 个 能 够 
横 、 竖 、 和 斜 无 限制 前 进 的 皇后 ， 让 它们 之 间 互 相 不 能 攻击 ， 求 有 多 少 种 
解 ) ; 以 及 MD5 算 法 、ZIP2 压 缩 算 法 等 各 种 不 胜 枚 举 的 算法 。 图 2-6 所 
示 为 八 皇 后 问题 的 一 组 解 ， 经 过 穷 举 是 可 以 求 出 所 有 92 组 解 的 。 











图 2-6” 八 星 后 问题 的 一 组 解 


应 该 说 算法 是 数据 加 工 的 灵魂 。 如 果 说 数据 和 信息 是 原始 的 食材 ， 
数据 分 析 的 结论 是 染 看 ， 那 么 算法 就 是 喜 调 过 程 ， 如 果 说 数据 是 玉 开 ， 
数据 中 强 含 的 知识 是 价值 连城 的 美 辜 ， 那 么 算法 就 是 玉石 打 诬 和 加 工 的 
机 床 和 工艺 流程 。 





算法 在 高 级 语言 发 展 了 很 多 年 之 后 ， 更 多 地 被 封装 成 了 独立 的 函数 
或 者 独立 的 类 ， 开 放 接 口供 人 调用 ， 然 而 算法 封闭 得 再 好 也 是 不 能 不 假 
思索 地 使 用 惑 能 获 益 的 东西 ， 要 知道 ， 这 些 封装 只 是 在 一 定 程度 上 避免 
了 重复 发 明 轮子 而 已 。 








大 家 不 要 以 为 算法 全 都 是 算法 工程 师 的 事情 ， 跟 普通 的 程序 员 或 者 
分 析 人 员 无 关 ， 算 法 说 到 的 是 对 处 理 逻 辑 理解 的 问题 。 








《孙子 兵法 :作战 篇 》 有 云 ,“ 不 尽 知 用 兵 之 害 者 ， 则 不 能 尽 知 用 兵 
之 利 ”， 意 思 是 说 ， 不 对 用 兵 打仗 的 坏处 与 整 喘 进行 充分 了 解 同 样 不 可 
能 对 用 兵 打 仗 的 好 处 有 足够 的 认识 。 算 法 的 应 用 是 一 个 辩证 的 过 程 ， 不 
仅 在 于 不 同 算法 间 的 比较 和 搭配 使 用 有 着 辩证 关系 ， 在 同一 个 算法 中 ， 
不 同 的 参数 和 阔 值 设置 同样 会 带 来 大 相 径 姓 的 结果 ， 甚 至 影响 数据 解读 
的 科学 性 。 这 一 反 请 大 家 务必 有 所 注意 。 
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统计 、 概 率 、 数 据 挖 据 ， 这 几 个 词 经 党 伴随 出 现 ， 尤 其 是 统计 和 概 
率 两 个 概念 ， 几 乎 就 像 上 自然界 的 伴生 矿 一 样 分 不 了 家 ， 有 很 多 出 版 社 都 
出 版 过 叫做 《概率 统计 》 的 书籍 。 


本 书 不 准备 从 学 术 的 角度 对 统计 和 概率 做 严格 的 区 分 ， 在 平时 工作 
中 用 的 统计 大 多 为 计数 功能 ， 如 在 使 用 Excel 时 会 用 到 COUNT、SUM、 
AVERAGE 等 统计 函数 ， 如 软件 开发 中 ， 在 用 SQL 语言 对 数据 库 的 某 些 
字段 进行 计数 (count) 、 求 和 (sum) 、 求 平均 (ave) 等 函数 。 而 概 
率 的 应 用 大 多 则 是 根据 样本 的 数量 以 及 占 比 得 到 “可 能 性 * 和 “分 布 比 
例 ” 等 描述 数值 。 当 然 ， 概 率 的 用 法 远 不 止 这 些 ， 在 数据 挖掘 中 同样 用 
到 大 量 概率 相关 的 算法 ， 后 面 会 有 相当 的 篇 幅 进 行 说 明 。 














数据 挖掘 这 个 词 很 多 时 候 是 和 机 器 学 习 一 起 出 现 的 ， 现 在 网 上 对 这 
两 个 词 的 关系 也 是 莫衷一是 。 有 的 说 数据 挖掘 包含 机 器 学 习 ， 有 的 说 机 
器 学 习 是 数据 挖掘 发 展 的 更 高 阶段 。 在 笔者 看 来 ， 数 据 挖掘 和 机 器 学 习 
这 样 的 词汇 命名 应 该 是 信息 科学 自然 进化 和 衍生 出 来 的 ， 带 有 一 定 的 约 
定 俗 成 的 色彩 ， 人 们 的 看 法 见仁见智 也 在 情理 之 中 。 























我 的 观点 是 这 样 。 





首先 我 认为 没有 必要 一 定 要 给 两 个 词汇 划一 个 界限 ， 或 者 一 定 要 对 





它们 做 严格 的 概念 区 分 ， 因 为 区 分 的 标准 到 目前 本 就 没有 科学 而 无 争议 
的 界定 ， 况 且 能 不 能 分 清 一 个 算法 属于 数据 挖掘 的 范畴 还 是 机 器 学 习 的 
范畴 对 于 算法 本 里 使 用 是 没有 任何 影响 的 ， 这 两 个 词 大 家 如 果 想 听 解 释 
的 话 ， 不 妨 只 从 字面 意思 去 理解 就 已 经 足够 了 。 























数据 挖掘 一 一 首先 是 有 一 定量 的 数据 作为 研究 对 象 ， 挖 掘 一 一 顾 名 
思 义 ， 说 明 有 一 些 东 西 并 不 是 放 在 表面 上 一 眼 丈 能 看 明白 ， 要 进行 深 肥 
的 研究 、 对 比 、 村 别 等 工作 ， 最 终 从 中 找到 规律 或 知识 , “挖掘 ?这 个 词 
用 得 很 形象 。 








机 器 学 习 一 一 先 想 想 人 类 学 习 的 目的 是 什么 ， 是 掌握 知识 ， 掌 握 能 
力 ， 掌 握 技 巧 ， 最 终 能 够 进行 比较 复杂 或 者 高 要 求 的 工作 。 那 么 类 比 一 
下 机 器 ， 我 们 证 机 融 学 习 ， 不 管 学 习 什 么 ， 最 终 目 的 都 是 让 和 它 独 立 或 至 
少 半 独 立地 进行 相对 复杂 或 者 高 要 求 的 工作 。 这 里 提 到 的 机 器 学 习 更 多 
征 让 机 器 帮助 人 类 做 一 些 大 规模 的 数据 识别 、 分 拣 、 规 律 总 结 等 人 类 做 
起 来 比较 花 时 间 的 事情 。 但 是 请 注意 ， 与 数据 挖掘 一 起 出 现 的 这 个 机 器 
学 习 概 念 和 我 们 说 的 < 人工 乔 能 ”还 是 相差 甚 远 ， 因 为 这 里 面 对 “ 知 能 ”的 
考究 程度 实在 是 太 低 了 。 






































另 一 个 经 常 和 大 数据 一 起 出 现 的 词汇 是 商业 智能 〈 图 2-7) ， 也 就 
是 我 们 平时 简称 的 BI (Business Intelligence) 。 


rea ML 业界 比较 公认 的 说 法 是 在 1996 年 最 早 由 加 特 纳 集团 
(Gartner Group) 提出 的 一 个 商业 概念 ， 通 过 应 用 基于 事实 的 文 持 系 统 
来 辅助 商业 决 集 的 制定 。 丙 业 智 能 技术 提供 使 企业 迅速 分 析 数 据 的 技术 
和 方法 ， 包 括 收集 、 管 理 和 分 析 数 据 ， 将 这 些 数据 转化 为 有 用 的 信息 。 
如 果 这 个 书本 式 的 概念 读 起 来 还 是 比较 费解 ， 那 么 请 看 一 个 形象 的 比 
喻 。 














公司 在 日 常 运营 过 程 中 是 需要 做 很 多 决策 的 ， 无 时 无 刻 都 存在 于 公 
司 的 各 个 方面 ， 而 决策 不 管 是 股东 大 会 讨论 还 是 企业 领导 、 部 门 领 导 直 
接 发 布 行政 命令 ， 最 终 可 能 是 很 多 因素 共同 影响 做 出 的 结果 ， 无 论 其 来 
自主 观 还 是 客观 。 














Ep-7 ”商业 智能 








这 些 决 全 可 以 如 何 得 出 呢 ? 可 以 由 领导 直接 凭 经 验 决 定 ;， 可 以 群集 
群 力 开会 决定 ; 可 以 问 询 行业 专家 ; 甚至 可 以 找 个 算 卦 先生 来 占卜 .….…… 
从 概念 来 说 都 是 属于 辅助 决策 。 而 显然 ， 我 们 都 期 望 不 论 最 终 是 如 何 做 
出 的 这 些 决 策 和 命令 ， 它 们 都 应 该 是 更 为 理性 、 科 学 、 正 确 的 。 但 是 如 
何 帮 助 他 们 做 出 更 为 理性 、 科 学 、 正 确 的 决策 呢 ? 商业 智能 整体 就 是 研 
完 这 样 一 个 课题 ， 到 目前 为 止 ， 业 界 普 衣 比较 认可 的 方式 束 是 基于 大 量 
的 数据 所 做 的 规律 性 分 析 。 因 而 ， 市 面 上 成 熟 的 商业 智能 软件 大 多 都 是 
基于 数据 仓库 做 数据 建 模 和 分 析 ， 以 及 数据 挖掘 和 报表 的 。 














可 以 说 ， 商 业 乔 能 是 一 个 具体 的 、 大 的 应 用 领域 ， 也 是 数据 挖掘 和 





机 需 学 习 应 用 的 一 个 天 然 杀 密 的 场景 。 而 且 商业 智能 这 个 解决 问题 的 理 
念 其 实 不 仅仅 可 以 应 用 于 商业 ， 还 可 以 应 用 于 国防 军事 、 交 通 优化 、 环 
境 治理 、 和 与 情 分 析 、 气 象 预 测 等 








26 2h 


数据 的 认识 和 数据 的 应 用 是 大 数据 与 机 器 学 习 的 基础 ， 数 据 、 信 
恩 、 算 法 、 概 率 、 数 据 挖掘 、 商 业 知 能， 这些 是 大 数据 最 为 核心 的 基础 
概念 与 要 系 。 妆 我 们 对 这 些 概念 有 了 清楚 的 认识 ， 并 能 够 清楚 说 出 这 些 
概念 之 间 的 辩证 关系 时 ， 我 们 就 已 经 在 数据 大 门 的 里 面 了 ， 怎 么 样 ， 是 
不 是 很 简单 ? 下面 束 让 我 们 一 步 一 步 地 深入 理解 这 些 概念 的 细 市 以 及 它 
们 的 应 用 技巧 吧 。 
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记得 我 在 上 中 学 和 上 大 学 的 时 候 ， 有 一 些 映 边 的 同学 就 抱 约 :“ 真 
不 知道 这 些 定理 们 都 是 哪儿 来 的 ， 是 天 上 掉 下 来 的 还 是 哪个 数学 家 哪 天 
睡觉 做 梦 突 然 梦 见 的 "。 大 家 听 了 不 住地 发 丘 ， 有 的 同学 则 怒 俊 不 茶 ， 
后 独 路 点 起 头 来 《图 3-1) 。 


Sin^2(CIJ+Ce *2(00)71 
Ssin(a/2)-« / ((-Cos a/2) 
Cos(ai/2)=+/ (1 COS C1)/2) 
tan(a/2)=+/ ((1-Cos a N4 


sinarz2tan(car/2)/[1*tc 





图 3-1 对 数学 定理 感到 疑惑 





在 我 印象 里 ， 高 中 的 时 候 当 时 其 实 有 不 少 同学 的 数学 成 绩 还 是 相当 
不 错 的 ， 但 是 也 会 偶尔 发 发 牢 又 , “每 个 公式 我 都 背 得 很 熟 ， 每 个 题 我 


也 都 会 做 ， 我 就 是 不 知道 将 来 这 些 东 西 能 干什么 用 .……” 


还 有 的 朋友 对 数学 确实 有 兴趣 ， 但 是 看 到 复杂 的 公式 就 两 眼 发 花 、 
瞳孔 放大 ， 抱 者 《概率 论 》、《 高 等 数学 》 这 些 大 部 头 的 书 满 头 大 计 ， 
难以 入 定 。 不 知道 你 身边 的 同学 朋友 里 有 没有 对 数学 又 爱 义 恨 的 人 。 











其 实数 学 本 号 本 不 应 是 高 高 在 上 的 学 科 ， 它 来 源 于 人 类 的 生产 生 
活 ， 也 扎根 于 人 类 的 生产 生活 ， 它 本 身 无 处 不 在 ， 只 是 我 们 早已 习惯 了 
它 以 孤傲 的 脸 孔 出 现在 书本 上 ， 才 让 我 们 感到 格外 地 陌生 和 玻 远 。 我 们 
有 没有 尝试 着 重新 用 更 平和 和 更 村 实 的 目光 再 一 次 认识 一 下 这 些 和 我 们 
本 应 水 乳 交 融 的 平民 数学 ? 我们 需要 平民 化 的 数学 应 用 ， 需 要 用 更 为 平 
民 化 的 语言 把 简洁 生 梁 的 公式 定理 表述 得 更 加 接地 气 。 








3.1 排列 组 合 的 概念 


3.1.1 公平 的 决断 一 一 扔 人 硬币 





排列 组 合 是 本 书 介绍 的 第 一 个 概率 论 概念 ， 也 是 在 高 中 学 过 的 一 个 
概率 学 的 入 门 概念 。 概 念 记 不 清 了 也 不 要 紧 ， 现 在 回忆 一 下 在 中 学 学 过 
的 排列 组 合 都 有 哪些 经 典 问题 来 着 。 











首先 是 扔 硬币 (图 3-2)。 





图 3-2 ”排列 组 合 的 经 典 场景 一 一 扔 人 硬币 〈 见 彩 插 ) 


AVR AS 53 fi FE r6 — —5418.39022: 272 IE TR EA EAA 
可 能 性 的 硬币， 我 们 连 扔 3 次 ， 产 生 3 次 朝 上 的 可 能 性 有 多 大 ? 


这 个 计算 应 该 不 算 难 ， 首 先 每 一 次 扔 出 ， 每 一 个 面 的 可 能 性 是 一 样 
的 ， 即 正面 12 的 可 能 性 ， 反 面 也 是 1/2 的 可 能 性 。 


那么 第 一 次 扔 ， 正 面 朝 上 是 1/2 的 可 能 性 ， 反 面 朝 上 也 是 /2 的 可 能 


在 第 一 次 正面 朝 上 的 情况 下 ， 第 二 次 扔 ， 正 面 朝 上 的 可 能 性 仍然 是 
1/2， 反 面 朝 上 也 是 12 的 可 能 性 。〈 即 正 正 ， 正 反 。) 


而 在 第 一 次 反面 朝 上 的 情况 下 ， 第 二 次 扔 ， 正 面 朝 上 的 可 能 性 仍然 
是 112， 反 面 朝 上 也 是 1/2 的 可 能 性 。〈 即 反正 ， 反 反 。) 


也 就 是 说 连 扔 两 次 ， 两 次 结果 为 “ 正 正 ”、“ 正 反 ”、“ 反 正 ”“ 反 
肥 ” 的 可 能 性 都 是 完全 一 样 的 ， 各 是 1/4。 


以 此 类 推 ， 连 扔 3 次 ，3 次 都 是 正面 朝 上 的 可 能 性 应 该 为 U8， 即 概 
率 为 /8 或 12.5%。 也 就 是 说 ，3 次 朝 上 分 别 为 “ 正 正 正 ”、“ 正 正 反 ”、“ 正 
BOE" “IE Ss SIR IE” “iF Re “Ee LB 
的 可 能 性 是 一 样 大 的 〈 图 3-3) 。 
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FRAT AY ELE AE TE E TS PSAL, RS TAL AR e ERE RB TE AK 
家 和 赁 运气 讲 公 平 的 一 种 裁决 手段 ， 如 两 个 人 打赌 赌 单 双 数 或 者 大 小 数 ， 
4 个 人 打 肪 将 决定 抓 牌位 置 ， 我 们 都 会 信 助 硬币 或 者 角子 这 样 的 几率 产 


生 均 等 的 工具 来 将 公平 进行 到 底 ， 当 然 那 些 手法 出 众 或 者 出 老 干 的 情况 
除外 。 





在 影视 作品 里 兽 看 到 过 一 些 赌 徒 为 了 让 目 己 扔 角 子 据 出 6 扣 的 概率 
增加 而 在 6 点 的 正 对 面 放置 铅 弹 一 类 的 重 物 ， 使 得 般 子 的 6 个 面 中 6 点 被 


Bout Lx TCU (3-4) 。 而 一 旦 被 人 识破 ， 该 赌 徒 则 会 
被 其 他 赌 徒 贤 打 甚至 是 杀害 。 显 然 ， 在 事先 得 知 角 子 被 做 了 如 此 手脚 之 
后 ， 是 不 会 再 有 兴趣 和 该 赠 徒 博弈 的 ， 因 为 掌握 这 种 严重 不 对 称 信息 的 
人 会 成 为 不 败 的 赢家 ， 因 为 这 种 机 会 的 均等 性 被 破坏 了 ， 造 成 极 大 
的 “不 公平 ”。 
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图 3-4 “SAFP RRT 


如 果 一 个 随机 试验 所 包含 的 单位 事件 〈 束 是 刚才 说 的 3 次 朝 上 分 别 
为 “ 正 正 正 ”“ 正 正 反 ”.……… 这 其 中 每 一 种 情况 都 是 单位 事件 ) 是 有 限 
的 ， 且 每 个 单位 事件 发 生 的 可 能 性 均 相 等 ， 则 这 个 随机 试验 叫做 拉 普 拉 
斯 试验 ， 这 种 条 件 下 的 概率 模型 就 叫 古 典 概 型 。 上 古典 概 型 也 叫 传统 概 
率 ， 访 定义 是 由 法 国 着 名 数学 家 拉 普 拉 斯 (Laplace) 提出 的 。 











这 种 使 用 穷 举 有 限 多 个 可 能 性 ， 并 且 根 据 可 能 性 在 所 有 事件 中 所 占 
比例 求 出 可 能 性 的 问题 ， 就 可 以 使 用 排列 组 合 的 方式 来 进行 计算 。 


3.1.2” 非 古典 概 型 


上 述 “ 训 典 概 型 的 特点 是 “包含 的 单位 事件 是 有 限 的 ， 且 每 个 单位 
事件 发 生 的 可 能 性 均 相 等 *。 单 位 事件 指 的 就 是 抛 出 一 个 “ 正 正 正 ?或 
者 “ 正 正 反 ”这 种 一 个 确定 的 试验 结果 的 事件 。 可 能 性 均等 就 是 “ 正 正 
正 ”“ 正 正 反 ”..….. 一 共 8 种 情况 ， 每 种 情况 产生 的 机 会 是 一 样 的 。 





那么 是 不 是 也 有 不 符合 古典 概 型 的 反例 呢 ? 也 就 是 说 “包含 的 单位 
事件 不 是 有 限 的 或 每 个 单位 事件 发 生 的 可 能 性 不 均等 ? 则 不 算是 古典 概 
型 ， 有 这 样 的 例子 吗 ? 





有 的 。 首 先 ， 刚 刚 提 到 的 赌 徒 改 造 般 子 的 例子 就 是 “每 个 单位 事件 
发 生 的 可 能 性 不 均等 ”的 例子 ， 那 么 这 种 情况 下 就 不 能 使 用 穷 举 、 排 列 
组 合 的 方法 进行 计算 ， 算 出 来 也 和 试验 结果 不 一 致 ， 再 者 ， 还 是 使 用 蜗 
子 搓 数 的 例子 ， 用 两 个 般 子 来 括 。 因 为 每 个 明 子 的 掷 出 范围 为 1~6 个 
点 ， 所 以 两 个 明 子 扔 出 的 范围 是 2~12 个 点 。 但 是 需要 注意 ， 虽 然 明 子 掷 
出 每 个 点 的 机 会 是 一 样 的 ， 但 是 2~12 这 11 个 点 产生 的 可 能 性 不 是 一 样 
的 。 两 个 角 子 都 扔 出 1 才 产 生 2， 所 以 概率 为 36， 同 理 12 的 概率 也 是 
1/36。 但 是 6 就 不 一 样 了 ， 两 个 骨 子 的 点 数 可 以 为 1 和 5、2 和 4、3 和 3、4 
和 2、5 和 1， 每 种 情况 的 概率 都 是 1136， 相 加 得 5/36。 所 以 对 于 两 个 般 子 
扔 出 2~12 个 点 ， 每 个 点 产生 的 概率 可 就 不 一 样 了 ， 那 每 个 点 的 概率 必然 








不 能 是 11。 好 在 产生 2~12 这 11 个 点 的 每 种 情况 中 ， 各 自 是 由 两 个 古典 
概 型 组 成 的 ， 还 能 分 解 以 后 各 自 求 解 〈 图 3-5) 。 
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而 “包含 的 单位 事件 不 是 有 限 的 ”这 种 例子 其 实 也 很 多 ， 例 如 ， 我 想 
知道 我 每 天 出 门 碰 到 熟人 的 概率 。 这 种 问题 用 古典 概 型 也 是 不 能 解决 
的 ， 所 有 单位 事件 的 定义 非常 复杂 ， 每 个 单位 事件 也 不 能 通过 类 似 扔 角 
子 这 么 简单 的 事情 就 描述 清楚 ， 还 有 时 间 、 地 点 等 各 种 复杂 的 情况 ， 当 
然 是 没有 办 法 用 古典 概 型 来 获 解 的 。 








32 ”排列 组 合 的 应 用 示例 


3.2.1 双色球 彩票 





双色 球 彩票 在 中 国 的 历史 不 算 短 了 ， 大 概 是 从 2003 年 2 月 就 开始 在 
中 国联 网 上 发售。 虽然 有 很 多 人 都 在 诉 病 说 双色 球 开 奖 的 方式 不 够 公平 透 
明 ， 但 是 还 有 相当 多 的 彩民 一 直 在 执着 地 研究 双色 球 开 奖 的 规律 (图 3- 
6) . 








图 3-6 ”双色 球 


这 里 只 从 数学 的 角度 来 看 一 下 双色 球 彩 票 的 头 奖 和 你 花 两 块 钱 下 注 
购买 的 彩票 一 致 性 的 概率 ， 也 就 是 人 们 平时 说 的 买 一 注 然 后 束 能 中 头 奖 
的 概率 有 多 大 。 这 里 必须 先 明 确 一 个 前 担 ， 就 是 确实 没有 人 对 彩票 购买 








Ti RI ERA d A DG PRIM ER BI VEE TEED AI 
道 开奖 结果 的 情况 下 买 的 ， 抽 燃 也 是 在 每 个 球 被 抽出 的 概率 一 样 的 情况 
下 进行 的 。 








我 们 购买 一 注 彩 票 的 时 候 ， 首 先 选 择 红 球 ， 从 01~33 共 33 个 号 码 中 
选择 6 个 号 码 。 再 选择 蓝 球 ， 从 01~16 共 16 个 号 码 中 选择 1 个 号 码 。6 红 1 
蓝 一 共 7 个 号 码 组 成 完整 的 一 注 彩 票 。 








最 终 抽 奖 的 时 候 也 会 是 从 01~33 共 33 个 红色 号 码 中 选择 6 个 号 码 ， 再 
从 01~16 共 16 个 蓝 色 号 码 中 选择 1 个 号 码 。6 红 1 蓝 一 共 7 个 号 码 组 成 完整 


的 一 注 头 奖 彩 票 。 


如 果 选 择 的 6 红 1 蓝 和 头 奖 的 6 红 1 蓝 完全 一 致 那 就 算 中 了 头 奖 ， 奖 爹 
怎么 算 .….. 这 个 大 家 去 问 福利 彩票 中 心 吧 ， 咱 们 这 里 只 算 概率 。 


先 算 算 挑选 6 红 1 蓝 一 共有 多 少 种 挑 法 。 


首先 先 从 33 个 红 球 中 挑选 6 个 红 球 ， 用 组 合 的 方式 计算 C: : 
31x30x29x28 


32x3 
6x5xAx3x2xl 


=1 107 568 


也 就 是 1107568 种 选 法 。 


再 从 16 个 蓝 色 球 中 选 1 个 ， 一 共有 16 种 选 法 。 


这 样 6 红 1 蓝 的 选 法 一 共有 1107568x16=17721088 种 。 


举 个 形象 点 的 例子 ， 老 天 和 他 在 想 1 到 17721088 中 的 一 个 整数 ， 你 也 
在 想 1 到 17721088 中 的 一 个 整数 ， 你 们 俩 想 的 完全 一 样 的 概率 有 多 大 ? 
没 错 ， 是 1/17721088， 大 约 是 0.0000000564% 的 概率 。 


不 少 人 说 ， 这 没关系 ， 反 正 有 一 些 破解 方法 。 有 哪些 破解 方法 ? 文 
持 以 下 两 种 方法 的 人 比较 多 。 


Adk—: 多 买 儿 种 组 会 


那 就 算 算 看 ， 一 共 17721088 种 可 能 ， 全 部 买 下 来 一 一 也 就 是 俗称 的 
全 餐 彩 票 ， 一 共 要 花 35442176 元 人 民 币 。 奖 池 是 不 是 在 所 有 中 头 奖 的 人 
平分 后 还 能 至 少 分 到 手 这 么 多 不 好 说 (加 上 二 等 奖 、 三 等 奖 一 共 能 领 到 
多 少 钱 都 可 以 自己 算 ) 。 按 照 比例 缩小 一 些 试 试 呢 ? 比如 买 一 半 ， 那 就 
是 中 奖 概率 变 成 /2 一 一 要 花 17721088 元 ， 还 有 一 半 的 可 能 性 是 不 中 。 
其 他 比例 读者 可 以 自己 计算 。 每 一 种 比例 在 降低 投入 的 同时 ， 也 在 降低 
中 奖 概 紊 。 所 以 这 种 方式 并 没有 提高 买 彩票 的 投入 产 出 比 。 








方法 二 : ”只 买 一 种 组 合 ， 坚 持 到 底 ， 就 能 提高 胜率 。 





有 这 样 思 想 的 朋友 估计 是 这 么 一 个 思路 ， 就 是 这 一 次 这 种 组 合 不 
中 ， 由 于 每 种 组 合 概率 一 样 ， 所 以 在 多 次 随机 过 程 里 前 面 出 现 过 的 组 合 
后 面 出 现 的 概率 就 低 ， 前 面 没 出 现 过 的 组 合 后 面 出 现 的 概率 就 高 。 有 这 





样 思 路 的 朋友 ， 想 想 这 样 一 个 事情 ， 交 通 事 故 其 实 是 一 个 典型 的 随机 事 
件 ， 平 均 每 个 月 发 生 交通 事故 的 数量 是 相对 “固定 ?的 ， 只 是 发 生 的 地 
点 、 发 生 的 时 间 、 发 生 的 车 型 、 涉 及 的 人 可 能 不 同 而 已 。 











那么 如 果 要 避免 区 通 事故 ， 惑 要 先 人 为 制造 一 些 无 害 的 交通 事故 ， 
造 够 了 次 数 ， 这 个 月 就 不 会 再 发 生 交 通 事故 了 ， 大 家 也 可 以 安心 上 路 
了 。 这 个 逻辑 就 变 得 顺理成章 ， 但 是 事实 真 的 会 是 这 样 吗 ? 











这 种 随机 产生 的 每 一 次 结果 之 间 其 实 是 独立 的 概率 ， 换 句 话说 每 一 
次 结果 是 不 会 影响 前 后 随机 事件 里 产生 的 结果 的 ， 也 不 会 影响 到 前 后 的 
随机 事件 的 结果 。 在 静态 概 型 里 ， 这 个 结论 请 大 家 牢记 。 也 有 人 表示 怀 
疑 ， 说 我 明明 在 一 些 事情 里 看 到 前 一 件 事 发 生 后 会 影响 后 面 事 件 发 生 的 
可 能 性 ， 那 这 种 事情 怎么 解释 。 这 种 事情 ， 首 先 不 是 古典 概 型 的 范畴 ， 
如 果 要 归 类 的 话 可 以 算 作 条 件 概率 的 研究 范畴 ， 条 件 概率 在 后 文 会 详细 
讲解 。 








3.22 购车 证 号 


北京 是 一 个 以 拥堵 著称 的 城市 ， 拥 墙 的 问题 也 是 由 来 已 入， 而 且 几 
乎 是 越 来 越 严 重 。 在 万 般 无 妹 的 情况 下 ， 专 家 们 最 后 祭 出 了 一 个 大 招 


一 扬 号 。 














摇号 是 一 个 带 有 比较 浓郁 配给 制 色彩 的 手段 。 大 概 的 形式 就 是 ， 每 
个 已 经 具备 摇号 资格 的 人 登记 一 下 身份 证 号 码 ， 所 有 登记 过 身份 证 号 码 
的 人 都 放 在 一 个 大 “池子 ”里 ， 然 后 每 两 个 月 通过 “随机 ”的 方式 产生 
20000 个 号 码 ， 这 20000 个 幸运 儿 融 是 中 签 者 ， 融 拥有 了 购买 一 辆 汽油 动 
力 汽车 的 配额 (图 3-7) 。 





图 3-7 汽车 摇号 


中 签 概率 多 大 呢 ? 有 人 想到 直接 用 20000 除 以 1420000 就 是 自己 中 签 
的 概率 。 但 是 为 什么 是 这 么 算 呢 ? 有 理论 依据 吗 ? 下 面试 着 推导 一 下 。 


以 真实 数据 为 例 ，2015 年 9 月 这 个 “池子 ”里 大 约 有 1420000 个 号 ， 从 
里 面 选 出 20000 个 号 ， 一 个 人 中 签 的 概率 有 多 大 ?稍微 想 想 看 ， 这 个 数 


2000 


值 也 不 会 是 C sooo ， 因 为 不 是 要 求 1420000 个 号 里 找 出 20000 个 号 一 组 


的 不 同 组 合 。 


在 没有 其 他 政策 进行 干预 而 将 1420000 个 号 码 进行 等 概率 选 出 的 情 
况 下 ， 选 出 20000 个 号 ， 而 自己 的 号 正好 在 其 中 。 相 当 于 用 一 个 1420000 
面 的 人 般 子 投 掷 一 次 选 出 一 个 号 ， 然 后 把 这 个 号 抹 掉 ， 再 用 剩余 的 
1419999 个 号 做 成 一 个 1419999 面 的 观 子 ， 再 投掷 一 次 ， 选 出 一 个 号 ， 然 
后 把 这 个 号 再 抹 掉 .……. 一 次 一 次 下 去 ， 直 到 20000 次 为 止 。 实 际 相当 于 


这 么 一 个 过 程 。 





想 不 清 梦 的 话 试 试用 小 一 点 的 数字 找 找 感觉 。 

如 果 是 有 3 个 人 参与 摇号 ， 摇 出 2 个 ， 是 怎么 计算 呢 ? 

按照 这 种 扔 货 子 的 方法 来 玩 ， 假 设 我 们 有 个 3 面 的 人 般 子 〈“ 其 实 真 的 
征 没 办 法 做 出 一 个 3 个 面 的 等 概率 般 子 ， 我 们 束 当 真 的 能 做 出 来 好 
T) 。 第 一 次 我 被 般 子 选中 的 概率 为 113， 还 有 2/3 是 没 被 选中 的 概率 。 


在 没 选 中 的 情况 下 ， 换 2 个 面 的 般 子 ， 这 一 次 我 被 角子 选中 的 概率 为 
1/2。 


如 果 是 6 个 人 参与 摇号 ， 摇 出 3 个 ， 是 怎么 计算 呢 ? 


ASTA FIC RID IAS, F: 


BIR, APRANG, Boe PIR AS/S, BITES AY 
Tis 


FBR, WPK, RAFINA, MEZRA 
dux 


第 三 次 ， 选 中 的 概率 为 /4， 没 选中 的 概率 为 3/4， 结 


被 选中 的 概率 是 多 少 呢 ? 
I 31.41 8 
一 十 一 :一 十 一 :一 = — 
6 65 54 I5 


如 果 有 兴趣 可 以 继续 用 其 他 例子 去 算 ， 我 们 现在 直接 说 结论 了 ， 这 
种 情况 其 实 就 是 用 掷 奶 子 的 次 数 除 以 最 开始 般 子 的 总 面 数 ， 也 就 是 一 共 
选 出 的 次 数 除 以 全 样本 空间 的 大 小 。20000/1420000 这 个 答案 是 没有 问 
题 的 ， 也 就 是 中 签 率 为 1.4% 左 右 ， 一 年 摇号 6 次 的 话 ， 佑 计 运 气 最 差 的 
人 要 11.8 年 才能 抽 中 ， 听 到 这 样 的 消息 现在 整个 人 都 不 好 了 。 不 过 别 忘 
了 ， 每 个 月 这 个 “池子 ?还 在 变 大 ， 究 竟 等 多 和 久 可 能 只 有 老 天 知 道 了 。 我 
们 这 里 只 从 理论 上 讲解 了 计算 的 原理 ， 但 是 和 实际 的 计算 方法 还 是 有 区 
别 的 ， 毕 竟 实 际 的 遵 选 规则 也 是 在 不 断 变化 ， 例 如 对 长 时 间 未 选中 的 号 
码 加 六 选 权 重 ， 这 样 计 算 起 来 更 为 复杂 一 些 。 








3.2.3 ”德州 扑克 


七 零 后 和 八 零 后 的 朋友 估计 对 香港 影星 周润发 很 熟悉 ， 尤 其 是 发 哥 
在 《 赌 神 》 系 列 中 风流 侦 伐 的 表演 给 人 留 下 很 深 的 印象 ， 其 中 最 后 发 哥 
和 大 BOSS 单 挑 基本 玩 的 都 是 “梭哈 ' 一 一 英文 名 称 Show Hand。 梭 哈 和 我 
们 今天 要 说 的 德州 扑 元 在 牌 点 大 小 比较 的 规则 上 和 是非 党 近似 的 。 





德州 扑克 是 很 多 年 轻 人 都 喜欢 的 扑克 竞技 游戏 ， 全 称 是 Texas 
Hold'em Poker， 中 文 简称 德州 扑克 。 这 里 研究 一 下 各 种 牌 型 出 现 的 概 
率 。 


对 于 不 熟悉 德州 扑 殉 规则 的 读者 来 说 ， 还 是 有 必要 先 简单 描述 一 下 
德州 扑克 的 规则 。 


一 张 人 台面 至 少 2 人 ， 最 多 22 人 ， 一 般 是 由 2~10 人 参加 。 德 州 扑克 一 
共有 52 张 牌 ， 没 有 王牌 。 每 个 玩家 分 2 张 牧 作为 “底牌 ”5 张 由 蓓 官 ( 专 
业 发 牌 的 人 ) 陆续 朝 上 发 出 的 公共 牌 。 开 始 的 时 候 ， 每 个 玩家 会 有 2 张 
面 袁 下 的 后 牌 。 经 过 所 有 押 注 峰 后 ， 硅 仍 不 能 分 出 胜 负 ， 游 戏 会 进 
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第 一 轮 是 在 每 位 玩家 只 能 看 到 目 己 2 张 底 牌 的 情况 下 加 注 。 











第 二 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 3 张 公共 牌 的 
情况 下 加 注 。 











第 三 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 4 张 公共 牌 的 
情况 下 加 注 。 





第 四 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 5 张 公共 牌 的 
情况 下 加 注 。 





最 多 只 会 经 历 这 4 轮 ， 一 局 游戏 结束 。 








游戏 的 输赢 就 是 看 玩家 目 己 的 2 张 确 牌 与 桌面 上 当前 已 开 出 的 公共 
牌 ， 一 共 挑 选 出 5 张 ， 组 成 最 “大 ”的 牌 ， 哪 位 玩家 的 牌 组 合 最 “大 ”， 哪 


位 玩家 束 获 得 胜利 。 
牌 的 组 合 大 小 怎么 定义 呢 ? 


对 博弈 类 游戏 有 所 了 解 的 读者 可 能 会 有 一 些 常 识 性 的 体会 一 一 组 合 
出 现 的 可 能 性 越 小 的 通常 牌 越 * 大 ”。 那 德州 扑克 里 都 有 哪些 组 合 呢 ? 


第 一 等 : 同 花 大 顺 。 相 同 花 色 的 A、K、Q、J、10 (图 3-8) 。 


第 二 等 : 同花顺 。 相 同 花 色 的 5 张 牌 相 连 。 例 如 ， 红 桃 6、7、8、 
9、10， 黑 桃 9、10、J、Q、K 等 (图 3-9) 。 





图 3-8” 同 花 大 顺 





图 3-9 JJ 


第 三 等 四 条 。4 张 相同 点 数 的 牌 。 例 如 ，4 张 8，4 张 Q 等 〈 图 3- 
10) 。 


SUSE: REZ Cn . semi. BPNIZSETBIS) a 
数 的 牌 。 例 如 ，3 张 5 和 2 张 9，3 张 K 和 2 张 10 等 〈 图 3-11) 。 





图 3-11 满堂红 


BASS: 同 花 。5 张 相同 花色 的 牌 ， 但 不 是 同花顺 。 例 如 ，5 张 牌 都 
古方 块 ，5 张 牌 都 是 梅花 等 《图 3-12) 。 


第 六 等 ; 顺 子 。5 张 点 数 相连 的 牌 ， 但 至 少 包 含 两 种 花色 。 例 如 ， 
方块 2、 方 块 3、 梅 花 4、 红 桃 5、 红 桃 6， 红 桃 8、 方 块 9、 梅 花 10、 红 桃 
J、 黑 桃 Q 等 〈 图 3-13) 。 
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图 3-12 H 





[3-13 IHF 


第 七 等 三 条 。3 张 相同 点 数 的 牌 ， 再 加 2 张 不 同 点 数 的 牌 。 例 如 ， 
3 张 9 和 1 张 3、1 张 K，3 张 Q 和 1 张 A，1 张 6 等 〈 图 3-14) 。 


第 八 等 : 两 对 。2 张 相同 点 数 的 牌 作为 一 对 ， 两 对 牌 ， 再 加 1 张 单 
牌 。 例 如 ，2 张 5、2 张 9、1 张 A，2 张 10、2 张 J]、1 张 K 等 (图 3-15) 。 





图 3-14 三 条 





图 3-15 WX} 


第 九 等 : 一 对 。2 张 相同 点 数 的 牌 作为 一 对 ， 一 对 牌 ， 再 加 3 张 单 
牌 。 例 如 ，2 张 10、1 张 7、1 张 8、1 张 9，2 张 A、1 张 K、1 张 9、1 张 5 等 


(图 3-16) 。 





第 十 等 ， 高 牌 。 高 牌 即 单 牌 ， 不 满足 前 面 九 等 牌 中 任何 一 种 的 ， 束 
只 能 按照 点 数 大 小 按 顺 序 决定 高 低 了 。A 比 K 大 ，K 比 Q 大 ， 以 此 类 推 ， 





这 里 试 求 一 下 ， 一 个 人 自己 摸 牌 〈 没 有 任何 第 二 个 玩家 参与 的 情况 
下 ) ， 前 三 等 牌 被 措 到 的 概率 有 多 大 。 


请 注意 ， 在 没有 开始 摸 牌 之 前 ， 如 果 牌 被 洗 过 知 干 次 〈 没 有 其 他 人 
为 干扰 因素 ) ， 牌 的 发 放 是 随机 的 。 而 一 旦 底牌 发 放 以 后 ， 尤 其 是 玩家 
自己 看 过 牌 以 后 ， 这 个 时 候 的 概率 计算 和 现在 要 讨论 的 这 种 概率 计算 是 
不 一 样 的 一 一 显然 ， 一 个 是 完全 随机 的 ， 一 个 是 有 一 定 条 件 的 ， 条 件 惑 
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那么 这 种 情况 下 ， 整 个 选 牌 的 过 程 相当 于 从 整 副 牌 52 张 中 选 出 7 
张 ， 并 从 中 组 合 出 最 大 牌 的 过 程 ， 即 


52 7x6xSxAx3x2xl i 
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1. 同 花 大 顺 











在 所 有 的 组 合 中 有 多 少 是 同 花 大 顺 的 呢 ? 同 花 大 顺 一 共 4 种 ， 分 别 
是 黑 桃 、 红 桃 、 梅 花 、 方 块 的 10、J、Q、K、A。7 张 牌 里 面 ，5 张 已 经 
确定 ， 另 外 2 张 怎 么 选 都 无 所 谓 。 以 黑 桃 为 例 ， 黑 桃 的 同 花 大 顺 选 出 
后 ， 其 实 人 还 有 47 张 牌 没有 发 ， 挑 出 2 张 ， 即 


ph ES aol 


“47 Ix] 








同 理 ， 红 桃 、 梅 花 、 方 块 的 同 花 大 顺 也 是 一 样 的 ， 都 是 1081 种 组 
合 ， 即 同 花 大 顺 共计 有 4324 种 组 合 。 因 此 概率 是 


ri 


4 324 


———— ———— 7?» 0.003 23% 
133 784 560 


2. 同 花 顺 


同花顺 有 多 少 种 情况 呢 ? 以 黑 桃 为 例 ， 假 设 A~5 组 成 同花顺 ， 黑 桃 
6 是 不 能 发 的 ， 还 剩 下 46 张 可 以 组 合 ， 则 这 种 情况 下 组 合 数量 为 








2~6 组 成 同花顺 ，7 是 不 能 发 的 ，A 可 以 发 〈A 作 为 散 牌 ) ， 所 以 还 
起 
C2. =1 035 


以 此 类 推 ， 黑 桃 的 组 合 为 A~5，2~6，......， 9~K， 一 共 9 种 ， 那 么 
黑 桃 一 种 花色 的 牌 型 种 类 就 为 


1035x9=9315 
4 种 花色 的 组 合 数 就 是 


9315x4=37260 


得 到 结果 概率 为 
37 260 | 
一 一 一 一 一 人 0.027 9% 
133 784 560 
网 上 还 有 一 种 算法 : 
38 916 | 
~ 0.029 1% 


133 784 560 


这 种 算法 是 有 问题 的 。 错 误 发 生 的 地 方 大 概 在 这 里 :“ 以 黑 桃 为 





Bl, AWS, 296, se 9~K， 一 共 9 种 ，47 张 牌 里 挑 出 两 张 ， 计 算 : 
C2, = TD OS 
2xl 


那么 黑 桃 的 同花顺 的 脾 型 种 数 为 


1081x9=9729 


同 理 ， 红 桃 、 梅 花 、 方 块 的 同花顺 都 有 9729 种 组 合 ， 共 计 38916 种 


组 合 ， 得 到 结果 





38 916 


— —— —7; & 0.029 1% 
133 784 560 


这 里 一 旦 选 好 了 5 张 牌 作为 “核心 组 合 ? 以 后 ， 其 他 牌 的 选择 其 实 不 
征 目 由 的 ， 因 为 有 的 牌 配 进来 以 后 束 发 现 这 个 一 开始 就 认定 的 组 合 不 是 
最 后 在 台面 上 最 大 的 牌 。 


3. 四 条 


四 条 有 多 少 种 呢 ， 计 算 方法 类 同 ，4 张 已 经 确定 ， 还 有 48 张 没有 
A: 
c: _ 48x41x46 _17 596 


3x2xl 


注意 这 里 4 张 的 组 合 有 多 少 种 一 一 13 种 ， 所 以 四 条 可 能 出 现 的 组 合 


17296x13=224848 


除 一 下 得 到 结果 


224 848 


— —— —— ~ 0.168% 
133 784 560 





虽然 看 上 去 机 会 仍然 很 渺茫 ， 但 是 比 同 花 大 顺和 同花顺 的 概率 还 是 
大 了 不 少 ， 是 不 是 ? 


其 他 的 组 合 方式 大 家 有 兴趣 可 以 目 己 慢 慢 去 算 ， 网 上 也 有 现成 算 好 
的 对 照 表 。 


提示 一 下 ， 两 对 牌 这 种 情况 比较 难 算 ， 因 为 情况 比较 复杂 。 它 复杂 
的 地 方 在 于 在 满足 两 对 牌 的 情况 下 ， 还 要 将 满足 同 花 大 顺 、 同 花 顺 、 四 
条 、 满 堂 红 、 同 花 、 顺 子 、 三 条 的 情况 全 部 剔除 才 行 。 两 对 牌 的 牌 型 为 
31433400 种 ， 概 率 为 23.5%。 还 有 一 些 其 他 形式 的 对 照 表 ， 就 是 在 手 里 
底牌 为 已 知 固定 组 合 的 情况 下 ， 最 终 与 公共 牌 组 合成 为 各 等 牌 的 概率 。 
这 里 温 吉 提醒 一 下 各 位 牌 友 ， 刚 刚 我 们 计算 的 概率 是 在 一 个 人 自己 摸 牌 
的 情况 下 产生 的 概率 。 一 旦 是 5 个 人 、10 个 人 玩 的 时 候 就 大 不 相同 了 。 
有 一 点 是 确定 的 ， 人 越 多 ， 公 共有 牌 和 其 他 玩家 一 起 组 成 的 牌 的 种 类 可 能 
性 也 越 多 , “罕见 组 合 ” 在 一 局 中 出 现 的 可 能 性 也 比 一 个 人 自己 摸 牌 要 高 

















很 多 ， 请 一 定 注 意 哦 。 


33 aw 


排列 组 合 以 及 利用 排列 组 合计 算 的 古典 概 型 在 生产 生活 中 可 以 解决 
很 多 问题 。 刚 刚 这 些 例子 我 们 已 经 看 到 了 不 少 用 法 和 技巧 。 





在 这 里 有 几 个 概念 可 能 会 被 误 读 ， 我 们 需要 在 这 里 澄清 一 下 。 

最 容易 发 生 的 误解 是 ， 扔 硬币 的 时 候 ， 如 果 前 3 次 出 现 * 正 ?， 那 第 4 
次 出 现 “ 反 ”的 概率 就 增 大 。 

这 里 面 的 误解 我 认为 有 两 个 层面 。 

误解 1: 对 “概率 ”一 词 本 和 喘 的 理解 有 偏差 


“概率 ”一 词 的 汉语 含义 是 几率 、 可 能 性 、 可 能 程度 。 我 们 通常 会 以 
我 们 自己 腊 想 的 方式 去 猜测 某 件 事情 的 可 能 性 比较 高 或 者 比较 低 ， 这 会 


导致 我 们 对 概率 大 小 理解 的 偏差 。 








在 使 用 排列 组 合 与 古典 概 型 的 方法 时 ， 有 一 个 大 原则 就 是 这 些 概率 
实际 上 是 通过 统计 计算 出 来 的 ， 请 注意 ， 由 统计 得 出 概率 是 人 们 得 到 概 
率 最 原始 的 方法 ， 包 括 后 面 将 要 介绍 的 条 件 概率 也 是 一 样 的 道理 。 也 就 
是 说 ,硬币 扔 出 正面 和 反面 各 50% 的 概率 是 多 少 ， 这 不 是 因为 硬币 本 号 
有 两 个 面 ， 而 是 通过 多 次 扔 硬币 ， 然 后 用 得 到 正面 的 次 数 除 以 总 数 得 到 
扔 出 正面 的 概率 一 一 这 个 才 是 定义 。 而 如 果 硬 币 本 里 不 是 匀 质 的 ， 如 由 








于 图 案 雕 花 构 造 或 者 铸币 金属 本 身 的 特性 导致 正面 较 重 ， 反 面 较 轻 ， 很 
有 可 能 导致 扔 出 正面 的 概率 为 60%， 反 面 的 概率 为 40% 的 情况 (抑或 其 
他 比例 ) 。 请 注意 ， 这 个 结论 同样 是 通过 多 次 扔 硬币 得 出 来 的 ， 例 如 扔 
1000 次 ， 发 现 有 600 次 是 正面 ，400 次 是 反面 。 这 时 再 计算 扔 3 次 硬币 会 
产生 3 个 正面 的 概率 就 不 是 3 个 1/2 相 乘 了 ， 而 是 3 个 0.6 相 乘 了 。 











既然 如 此 ， 概 率 本 身 的 解释 就 是 对 于 大 量 样本 分 布 比例 的 解释 ， 而 
不 是 对 单 次 事件 的 可 能 性 的 解释 。 我 们 说 扔 硬币 产生 正面 概率 50%， 反 
面 概率 50%， 其 实 是 在 说 扔 1000 次 硬币 ， 理 论 上 会 有 500 次 产生 正面 ， 
500 次 产生 反面 ， 扔 10000 次 人 硬币， 理论 上 会 有 5000 次 产生 正面 ，5000 次 
产生 反面 。 这 才 是 概率 本 身 的 含义 ， 而 对 于 单 次 扔 硬币 的 解释 没有 意 
Me 





误解 2， 事件 之 间 的 独立 性 。 





扔 出 一 次 硬币 ， 得 到 正面 ， 下 一 次 重新 再 扔 ， 那 么 这 一 次 扔 硬币 和 
上 一 次 扔 硬币 有 关系 吗 ? 学 过 概率 论 的 朋友 都 不 会 陌生 ， 答 案 是 “没有 
关系 "”。 没 学 过 概率 论 的 朋友 其 实 稍微 想 一 想 也 能 得 出 这 个 结论 。 








这 里 不 妨 再 做 一 个 实验 ， 这 个 实验 略 显 复杂 且 无 厘 头 ， 但 是 这 个 过 
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扔 ， 一 次 、 两 次 、 三 次 .…… 任 何 一 个 人 都 是 一 直 在 扔 硬币 直到 出 现 最 近 





3 次 连续 都 是 正面 的 时 候 停 下 来 。 最 后 ， 这 100 个 人 都 会 在 那里 静 静 地 停 
下 来 等 待 下 一 个 指令 ， 这 个 指令 就 是 让 他 们 同时 进行 一 次 抛 硬币 的 动 
作 ， 然 后 比较 这 100 枚 硬币 正 反面 出 现 的 比例 。 对 于 每 一 位 参与 实验 的 
人 来 说 ， 如 果 由 于 前 3 次 投掷 都 产生 正面 而 使 得 第 4 次 投掷 出 现 反面 的 概 
率 变 高 的 话 ， 那 么 会 在 100 人 同时 投掷 的 实验 中 看 到 一 个 奇怪 的 现象 ， 
那 就 是 出 现 反面 比 正面 多 很 多 的 情况 。 真 的 会 这 样 吗 ” 人 们 甚至 还 可 以 
观察 更 为 极端 的 情况 ， 那 就 是 等 待 最近 5 次 连续 都 是 正面 的 时 候 停 下 
K, ARLA? 如 果 在 一 个 试验 中 直接 扔 100 枚 人 硬币， 那么 产生 正 
面 和 反面 应 该 都 是 50 次 左右 。 这 又 和 刚刚 的 假设 看 上 去 如 此 矛盾 。 究 竟 
哪 种 说 法 是 对 的 呢 ? 统计 的 定义 交 给 统计 来 验证 吧 。 




















第 4 章 ”统计 与 分 布 


前 一 章 简单 复习 了 一 下 排列 组 合 ， 就 当 热 热 刁 吧 。 本 章 开 始 再 复习 
一 下 统计 和 分 布 的 知识 。 


统计 学 的 内 容 其 实 非 党 庞杂 ， 应 用 领域 也 很 广 ， 也 有 着 不 同 的 学 
派 。 但 是 如 果 不 做 学 术 研 究 而 只 是 关注 应 用 ， 我 认为 未 必需 要 进行 面 面 
俱 到 的 深入 学 习 。 








不 管 是 什么 学 科 ， 尤 其 是 工科 和 理科 中 的 各 个 学 科 ， 它 们 绝 不 会 是 
人 们 单纯 觉得 好 玩 ， 绝 不 会 是 为 了 消 壮 娱乐 而 创 并 的， 而 是 它 的 发 展 最 
终 能 够 降低 人 类 认 知 或 描述 世界 的 成 本 ， 带 来 工作 效益 的 直接 或 间接 的 
提升 。 有 了 这 个 思路 ， 我 们 在 理解 很 多 现象 的 时 候 都 会 更 自然 ， 因 此 这 
里 从 应 用 的 思路 来 入 手 。 


4.1 JAMES PEE An Ee 


上 学 是 每 个 人 几乎 都 经 历 过 的 过 程 ， 拿 来 做 例子 也 许 会 更 加 杀 切 。 


假设 在 一 所 高 中 ， 有 3 个 年 级 ， 每 个 年 级 有 10 个 班 ， 每 个 班 有 40 到 
60 个 学 生 不 等 。 要 对 这 些 老师 和 学 生 进 行 管理 喊 口 号 是 不 好 使 的 ， 作 为 
学 校 的 教学 主任 ， 他 需要 了 解 这 些 学 生 的 学 习 情 况 ， 知 道学 生 学 习 成 绩 
的 变化 ， 老 师 教 学 水 平 的 高 低 ， 以 及 调整 的 方式 《图 4-1) 。 








最 早 的 考试 不 知道 是 哪 位 聪明 人 发 明 的 ， 因 为 考试 是 一 种 天 然 有 
着 “数字 化 管理 ?基因 的 东西 ， 天 然 就 是 一 种 指标 坏 子 。 例 如 ， 一 次 学 校 
期 末 考 试 以 后 ， 所 有 的 学 后 成绩 都 汇总 上 来 ， 假 设 考试 的 科目 有 语文 、 
数学 、 英 语 3 个 学 科 ， 一 个 包含 1000 多 个 学 生 的 四 五 千 个 单位 的 数据 就 
会 摆 在 这 位 教学 主任 的 眼前 《图 4-2) 。 











fi er REL CE 


是 这 位 教学 主任 ， 需 要 你 和 校长 汇报 一 下 这 次 考试 各 
班 的 情况 如 何 ， 你 会 怎 


么 办 ? 





图 4-2 ”学 生成 绩 汇 总 


把 所 有 的 学 生 的 每 一 门 课 的 成 绩 都 逐个 给 校长 读 一 过 ? 恐怕 是 要 人 花 
费 太 多 的 时 间 ， 搞 不 好 开始 汇报 还 没有 3 分 钟 校 长 已 经 睡 着 了 。 


4.1.1 加 和 值 


这 里 插入 一 段 小 小 的 联想 ， 想 想 平 时 到 超市 里 购物 最 后 在 收银 人 台 做 
了 什么 事情 。 收 银 员 把 每 件 货品 的 价格 加 和 ， 不 管 是 10 件 还 是 20 件 还 是 
更 多 ， 最 终 只 给 出 一 个 价格 的 合计 值 。 顾 客 按照 这 个 合计 值 付 账 一 次 性 
结束 整个 交易 ， 而 这 显然 是 比 对 每 件 货品 都 单独 结算 一 次 的 时 间 成 本 低 
很 多 的 。 这 里 面 用 到 统计 学 的 知识 了 吗 ? ABT, Re CARROT T 
以 至 于 人 们 几乎 没有 意识 到 而 已 。 这 种 用 一 个 加 和 值 来 概括 性 地 描述 一 
群 事 物 的 方法 几乎 不 需要 教学 就 能 直观 地 实现 早 市 上 那些 即便 没有 什么 
学 历 的 菜 贩 也 不 用 非 要 找 个 数学 老师 来 系统 教学 一 下 或 者 深造 一 个 统计 
学 专业 的 文 插 才能 开始 给 买 采 大 妈 们 报价 和 卖 茉 吧 。 所 以 使 用 一 个 性 状 
数值 的 加 和 值 来 对 一 群 事物 进行 描述 是 一 种 非常 自然 的 描述 方式 (图 4- 
301) ， 这 简直 太 棒 了 。 
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图 4-3 ”价格 加 和 


这 种 例子 其 实 到 处 都 是 ， 如 平时 说 的 GDP (Gross Domestic 
Product， 国 内 生产 总 值 ， 我 们 常常 口 口 相传 的 国民 生产 总 值 实际 是 GNP 
Gross National Product) ， 再 如 “上 个 月 我 出 差 一 共 花 了 2000 元 ”， 
这 都 是 非常 典型 的 用 总 和 值 来 进行 概括 描述 的 例子 。 人 们 不 需要 具体 阅 
述 千 万 个 工厂 每 个 工厂 有 多 大 产值 ， 干 万 家 公司 每 家 公司 有 多 大 产值 ; 
或 者 出 差 吃 某 一 顿 饭 花 了 多 少 钱 ， 坐 出 租车 某 一 次 花 了 多 少 钱 ， 这 种 细 
节 的 陈述 太 繁 琐 。 这 就 是 人 们 从 加 和 值 描述 中 得 到 的 最 大 好 处 一 一 直 奔 
主题 ， 只 关心 人 们 最 关心 的 总 和 数字 ， 忽 略 里 面 的 细节 。 通 常 把 加 和 值 
的 概念 用 希腊 字母 ?来 表示 ， 读 作 “ 西 格 玛 ”， 后 面 还 会 经 常 碰 到 这 个 标 























然后 再 回来 看 一 下 教学 主任 的 问题 。 是 不 是 也 可 以 很 自然 地 先 想 
到 ， 干 脆 用 一 个 加 和 值 来 描述 ， 这 一 个 班 所 有 的 学 生 所 有 的 成 绩 加 起 来 
一 共 多 少 分 。 如 果真 的 这 么 做 了 会 出 现 什么 情况 ? 


“一 年 级 一 班 分 数 总 和 9600 分 ， 一 年 级 二 班 分 数 总 和 13500 
分 .…….” 这 一 描述 看 上 去 是 非常 简洁 的 ， 但 是 这 种 描述 带 来 的 信息 几乎 
没有 什么 价值 。 可 以 根据 这 个 数值 比较 说 一 年 级 二 班 的 学 生 比 一 年 级 一 
班 的 学 生 学 习 好 吗 ? 直观 去 看 的 话 ， 这 种 似乎 感觉 很 奇怪 ， 但 是 怎么 个 
奇怪 法 呢 ? 








事实 上 可 能 是 这 样 ， 一 年 级 一 班 有 40 名 学 生 ， 每 个 人 3 门 功课 每 一 
门 都 是 80 分 ; 一 年 级 二 班 有 60 名 学 生 ， 每 个 人 3 门 功 课 每 一 门 都 是 75 


分 。 需 要 陈述 到 这 个 级 别 才能 明确 究竟 哪个 班 更 好 ， 这 显然 和 我 们 用 简 
洁 数 值 做 摘 述 的 初衷 背道而驰 。 对 学 生成 绩 的 描述 如 果 能 够 成 为 对 整个 
班级 的 成 绩 概括 摘 述 ， 同 时 兼 有 对 每 个 个 体 的 描述 ， 套 用 现在 流行 的 一 
句 话 一 一 “ 那 真是 极 好 的 "。 有 这 样 一 种 数 吗 ? 有 的 ， 如 平均 值 。 


[1] 图 片 来 源 于 百度 图 库 。 


41.2 “PIS 


平均 值 的 计算 方法 大 家 肯定 很 熟悉 ， 我 们 在 学 生 时 代 就 已 经 经 历 过 
无 数 的 例子 。 上 述 例 子 束 是 以 班级 为 单位 把 每 个 人 的 每 门 诬 程 加 在 一 起 
除 以 总 的 学 生 数 量 ， 再 除 以 读 程 数量 。 


“一 年 级 一 班 有 40 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 
“一 年 级 二 班 有 60 名 学 生 ，3 门 课程 平均 分 为 75 分 ”。 


“一 年 级 三 班 有 50 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 











从 这 里 基本 还 是 能 得 到 一 个 清晰 的 感性 认识 ， 那 就 是 一 年 级 一 班 和 
一 年 级 三 班 的 总 体 水 平 是 “一 样 的 ”， 而 且 他 们 比 一 年 级 二 班 的 水 平 高 。 
因为 在 使 用 平均 值 进 行 比 较 时 ， 实 际 直 观感 沉 是 在 对 比 3 个 班级 中 每 一 
个 学 生 个 体 。 





所 有 这 类 用 单一 的 数据 定义 来 概括 性 描述 一 些 抽象 或 复杂 数据 的 方 
式 方 法 都 叫做 “指标 ”。 平 均 分 在 这 里 就 是 一 个 很 好 的 指标 ， 因 为 它 用 一 
个 简洁 的 数据 定义 概括 了 众多 数据 的 特性 。 平 均值 和 样本 数量 (学 生 
BO 这 两 个 值 束 基本 可 以 描述 清楚 学 生 分 数 的 蜗 低 情况 了。 在 上 述 例子 
里 ， 平 均 分 这 种 指标 丽 怕 不 是 由 和 个 数学 家 或 者 智商 殊 绝 于 人 的 家 伙 特 
意 发 明 出 来 的 ， 而 是 在 生活 中 由 于 要 进行 对 象 数据 的 宏观 描述 而 自然 而 








然 产生 的 一 种 方便 的 数值 计算 和 描述 方法 。 





另外 ， 指 标 在 很 多 企 事 业 单 位 、 学 术 技 术 领 域 都 有 广泛 的 应 用 。 如 
证 券 交 易 中 有 很 多 价格 指标 一 一 用 来 摘 述 价格 震荡 的 剧烈 程度 、 价 格 变 
化 的 趋势 等 ， 环 保 领域 有 PM2.5 浓 度 指标 ， 以 及 交通 警察 在 测量 司机 是 
和 否 酒 驾 时 使 用 的 血液 酒精 浓度 一 -BAC 指 标 等 。 图 4-4 所 示 为 家 用 多 功 
能 环境 测量 仪器 的 各 种 污染 指标 显示 ， 有 甲醛 、PM2.5、PM10、VOC 
和 电磁 辐射 ， 这 些 数值 化 的 读数 都 是 指标 。 














图 4-4 污染 指标 显示 


指标 的 使 用 有 助 于 我 们 简练 地 描述 对 象 。 再 回 到 班级 成 绩 统 计 的 例 


“一 年 级 一 班 有 40 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 


“一 年 级 二 班 有 60 名 学 生 ，3 门 课程 平均 分 为 75 分 ”。 


“一 年 级 三 班 有 50 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 


从 这 组 数据 来 看 ， 基 本 可 以 得 到 一 个 印象 ， 就 是 一 年 级 一 班 的 成 
绩 “ 普 遍 ? 比 一 年 级 二 班 < 好 ?， 至 少 是 从 “宏观 体现 ”上 看 比 二 班 好 ， 它 和 
年 级 三 班 < 一 样 好 ”。 但 是 一 年 级 一 班 和 一 年 级 三 班 这 两 个 班 的 每 个 人 
的 成 绩 都 是 一 样 的 吗 ? 至 少 人 数 是 不 一 样 的 。 那 么 也 许 还 需要 进一步 地 
描述 这 平均 下 来 的 80 分 和 每 个 学 生 具 体 的 课程 分 数 之 间 的 差异 性 有 多 
K, XXL E 








41.3 pi 


我 们 先 上 公式 ， 标 准 差 公 式 如 下 : 








下 面 解释 一 下 这 个 公式 的 含义 。 


我 们 以 一 年 级 一 班 所 有 40 个 学 生 为 例 ， 那 么 3 门 考试 的 情况 下 全 班 
就 有 120 个 分 数 参与 统计 ， 也 就 是 n=120。 把 每 个 学 生 每 门 课 的 成 绩 减 去 
全 班 的 3 个 学 科 总 的 平均 分 80 分 ， 这 样 得 到 120 个 兰 值 ， 再 把 这 些 差 值 分 
别 平 方 〈 主 要 是 为 了 去 邱 负 数 ， 因 为 在 分 数 兰 距 里 面 ， 不 管 是 比 这 个 平 
均值 多 ， 还 是 比 这 个 平均 值 少 ， 都 被 视 为 偏差 )， 将 这 些 平方 的 结果 再 
加 和 ， 之 后 除 以 参与 统计 的 学 科 数 量 120， 最 后 开平 方 ， 这 个 数字 只 可 
能 是 一 个 大 于 等 于 零 的 数字 。 用 汉字 描述 起 来 很 吃 叶 ， 但 是 一 旦 变 成 一 
个 标准 差 的 指标 以 后 ， 由 于 是 约定 俗 成 的 ， 所 以 只 需要 “标准 差 * 这 3 个 
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这 个 数字 表示 的 是 什么 含义 ? 从 这 个 数字 得 到 的 过 程 其 实 不 难看 出 
来 。 


如 果 所 有 的 人 的 所 有 诬 程 成 绩 剖 是 和 平均 分 一 样 ， 那 么 算出 来 的 标 





准 差 就 是 9， 因 为 每 一 个 (YX) 肯定 都 是 02 ; 反之 ， 如 果 所 有 的 人 的 课 
程 成 绩 与 平均 分 的 差距 都 很 大 ， 好 的 很 好 ， 差 的 很 差 ， 那 么 结果 就 是 这 
个 值 会 很 大 。 如 果 一 个 班级 成 绩 标准 差 比 另 一 个 班级 成 绩 的 标准 差 小 ， 
说 明 学 生 之 间 的 考试 成 绩 水 平 差不多 ， 标 准 差 大 则 说 明 学 生 之 间 的 考试 
成 绩 水 平 相差 比较 大 。 














需要 说 明 的 是 ， 一 般 来 说 为 了 在 教学 战术 指导 层面 让 平均 值 和 标准 
兰 更 有 针对 性 ， 通 党 是 不 会 像 例子 里 这 样 来 操作 的 。 更 多 的 是 以 一 个 班 
为 单位 ， 求 班 里 某 一 个 学 科 成 绩 的 平均 值 和 标准 差 ， 或 者 求 某 一 个 学 生 
所 有 和 学科 的 平均 值 和 标准 差 。 这 两 种 计算 分 别 用 来 描述 一 个 教师 教学 的 
成 果 和 东 个 学 生 的 成 绩 以 及 侦 科 的 程度 。 





例如 , “一 年 级 三 班 有 50 名 学 生 ， 黄 语 考试 平均 分 为 80 分 ， 标 准 差 
为 4.25”，“ 张 三 同学 ， 语 文 、 数 学 、 莫 语 三 门 课 的 平均 分 为 90 分 ”。 


前 者 能 够 反映 教授 这 个 班 的 英语 教师 的 教学 情况 ， 后 者 能 够 反映 张 
三 这 名 学 生 的 各 学 科学 习 情 况 一 一 当然 都 是 粗 久 的 概述 性 描述 。 








加 和 值 “ 总 和 值 》、 平 均值 、 标 准 差 ， 这 几 个 值 是 在 生产 生活 中 大 
量 应 用 的 统计 学 指标 。 不 过 在 此 需要 强调 的 是 ， 也 是 很 容易 被 人 误 读 的 
地 方 。 那 束 是 ， 平 均值 、 标 准 差 是 客观 的 计算 结果 ， 是 描述 性 的 说 明 ， 
但 是 绝 非 对 比 和 评价 的 标准 。 








不 少 人 认为 ， 某 学 校 和 老师 的 学 生 的 高 考 平均 分 比 力 一 学 校 男 一 老 


师 的 学 生平 均 分 要 高 ， 这 一 定 说 明 这 个 学 校 这 个 老师 的 教学 水 平 要 高 。 

这 个 因果 关系 不 一 定 是 正确 的 ， 因 为 一 旦 在 生活 中 应 用 ， 客 观 场景 的 细 
节 会 让 这 种 对 比 变 得 宣 无 意义 。 虽 然 从 广大 家 长 的 视角 去 看 ， 不 管 怎么 
样 ， 只 要 有 选择 的 余地 ， 比 较 两 个 班 的 平均 成 绩 来 判断 自己 的 孩子 进入 
哪个 班 未 来 会 更 有 利 是 有 道理 的 。 























举 个 反例 。 如 宁 这 两 个 学 校 的 老师 的 生源 本 喘 就 有 很 悬殊 的 兰 距 : 
一 个 老师 的 学 生平 均 分 都 在 80 分 左右 ， 只 能 上 一 般 的 大 学 ; 男 一 个 老师 
则 有 不 少 85 分 以 上 的 学 生 ， 还 有 大 量 60、70 分 的 “关系 户 ” 学 生 ， 如 图 4- 
5 所 示 。 那 么 或 许 后 者 的 班级 里 诞生 清华 北大 的 学 生 的 可 能 性 还 会 比 前 
一 个 班 更 大 也 未 可 知 。 





(a) 教师 一 的 学 生 水 平 


图 4-5 SAAR KP 
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(b) 教师 二 的 学 生 水 平 


图 4-5 (BD 


所 以 ， 请 读者 注意 ， 平 均 分 、 标 准 兰 只 能 做 描述 用 ， 只 是 一 种 简洁 
的 描述 方法 ， 最 多 只 能 帮助 我 们 让 数据 宏观 的 “画面 感 ” 更 饱满 。 它 们 既 
不 是 对 比 的 标 斥 ， 也 不 是 用 来 具体 做 规则 制定 用 的 硬性 矿 度 ， 更 不 能 
来 孤立 地 评价 好 坏 ， 因 为 “好 坏 ” 这 种 含有 大 量 主观 判断 色彩 以 及 个 性 化 
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4.2 ”加 权 均 值 





平均 值 这 种 指标 有 一 个 “ 兄 第 *”， 束 是 加 权 均 值 。 权 Weight) 指 的 
是 权重 ， 也 就 是 指 所 占 的 “比重 ”或 “重要 ”程度 。 在 前 一 节 的 例子 里 ,我 
们 看 到 全 班 学 生 的 平均 值 计 算 方 法 ， 是 把 每 个 样本 值 〈 学 生成 绩 〉 直 接 
加 和 ， 然 后 除 以 学 生 数 再 除 以 学 科 数 量 来 得 到 全 班 每 个 人 每 学 科 的 平均 
值 。 这 里 一 视 同 仁 地 把 所 有 学 生 和 所 有 学 科 进 行 等 同 看 待 ， 没 有 丝 坚 的 
偶 倚 ， 分 数 直 接 相 加 直接 平均 。 然 而 这 种 方法 并 非 在 所 有 的 场景 里 都 是 
最 合理 的 ， 我 们 再 来 看 一 个 生活 中 的 小 例子 。 








4241 混合物 定 价 


在 超市 里 买 可 能 都 到 过 卖 出 售 糖果 零食 副食 品 的 柜台 去 ， 或 者 至 少 
看 过 那里 有 卖 糖 的 。 有 一 类 比较 受 欢迎 的 糖 叫 做 什锦 糖 ， 有 的 地 方 叫 
< 拌 糖 ， 束 是 把 几 种 不 同类 型 的 糖 混 在 一 起 卖 (图 4-6) ， 过 年 的 时 候 
通常 卖 得 不 错 。 毕 葛 对 于 那些 不 是 退 求 菜 一 种 糖 品 口味 的 人 来 说 购 
买 “一 种 糖 * 束 等 于 买 了 若干 种 糖 是 很 省 事 的 一 一 全 少 不 需 要 挑选 多 次 称 
重 多 次 。 但 是 这 种 糖 如 何 定价 呢 ? 
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例如 ， 有 一 种 什锦 糖 是 4 种 单 品 糖 按 照 1: 1: 1: 1 的 比例 组 合 而 成 
的 ， 它 们 分 别 定 价 为 : 水 果糖 15 元 一 帮 ， 奶 糖 25 元 一 厅 ， 和 牛 轧 糖 30 元 一 
斤 ， 巧 克 力 糖 40 元 一 厂 〈 图 4-7) 。 





水 果糖 : 15 元 / 斤 巧克力 : 40/ Fr 


= a L&L 
MESA 


(AHS: 25/ Fr Hee: 25 元/ FE 
E: oe ee 


Kl4-7 ”什锦 糖 中 每 种 单 品 按 1: 1: 1: 1 


均匀 混合 以 后 ， 可 以 认为 ， 理 想 状 态 下 ， 一 位 客户 如 果 正 好 称 4 斤 
糖 就 恰好 为 1 斤 水 果糖 ，1 斤 奶 糖 ，1 斤 牛 轧 糖 和 1 斤 巧 克 力 糖 。 那 这 4 斤 
糖 一 共 应 该 是 多 少 钱 呢 ? 15 元 +25 元 +30 元 +40 元 =110 元 ， 也 就 是 平均 一 
斤 为 27.5 元 。 那 么 这 种 糖 定价 就 应 该 为 27.5 元 才 为 合理 。 因 为 也 确实 是 
这 样 ， 顾 客 购买 的 一 斤 什锦 糖 里 面 应 该 有 水 果糖 、 奶 糖 、 牛 轧 糖 、 巧 克 
力 糖 各 0.25 帮 ， 而 0.25 斤 的 4 种 糖 价格 分 别 为 3.75 元 ，6.25 元 ，7.5 元 ，10 
元 ， 加 和 仍然 是 27.5 元 一 一 两 种 算法 是 一 样 的 。 








如 果 这 几 种 糖 的 混合 比例 为 1 2: 3: 4 (4-8) ， 那 么 也 比较 容 
易 得 出 ， 在 混合 均匀 的 情况 下 ，10 斤 糖 里 有 1 斤 水 果糖 ，2 斤 奶 糖 ，3 斤 
牛 轧 糖 和 4 斤 巧克力 糖 。15 元 xl+25 元 x2+30 元 x3+40 元 x4=315 元 ， 也 就 
是 平均 31.5 元 才 为 合理 。 这 其 实 就 是 一 种 加 权 平 均 的 算法 了 ， 因 为 每 种 
糖 的 价格 在 什锦 糖 的 均 价 上 体现 出 来 的 是 不 同 的 比重 。 如 果 不 按照 这 种 
方法 定 ， 还 是 按照 非 加 权 平 均 的 方式 去 算 会 怎么 样 呢 ? 按照 前 面 的 例子 
那 束 是 27.5 元 一 斤 ， 而 10 斤 的 什锦 糖 为 275 元 ， 比 应 售 价 低 40 元 ， 显 然 
是 亏本 的 买卖 。 








d De 


A gue. 15 元 / 斤 奶 糖 : 25/ Fr 








te. 25 Tc / FF GAN: 40/ Fr 
l: 23g 
图 4-8 ”什锦 糖 中 每 种 单 品 按 1: 2: 3: 4 的 比例 混合 


这 种 由 于 混合 比例 所 产生 的 权重 不 同 ， 进 而 使 用 加 权 平 均 来 进行 计 
算 的 思路 还 有 很 多 。 如 东 些 混合 液体 的 成 本 佑 算 ， 要 把 每 种 液体 的 成 本 
和 份 数 考虑 在 内 ， 而 不 能 直接 用 液体 单价 加 和 了 直接 平均 。 尤 其 是 牛 
奶 、 豆 浆 、 白 酒 这 些 通 过 原 浆 和 水 混合 义 兄 出 来 的 液体 ， 在 评估 成 本 的 
时 候 必 须 是 用 比例 来 计算 。 如 以 重量 1: 4 的 原 浆 和 水 的 比例 来 勾兑 白 
酒 ， 勾 部 完 的 白酒 成 本 怎么 计算 ? 








1kg 日 酒 成 本 = (1kg 和 白酒 原 浆 成 本 x1+1kg 水 成 本 x4) + (1+4) 





而 绝对 不 会 是 





Clkg 和 白酒 原 浆 成 本 +1kg 水 成 本 ) +2 


4.2.20 IRENE 


除了 计算 混合 物 的 定价 ， 还 有 很 多 场合 都 会 用 到 加 权 平 均 的 概念 。 


在 一 些 决策 的 场合 我 们 会 用 到 加 权 均 值 的 概念 。 例 如 ， 在 股东 大 会 
上 投票 决议 是 否 通 过 某 一 决定 的 情况 下 ， 以 所 持 股 作为 投票 单位 ， 那 么 
这 种 情况 显然 大 股东 一 一 持 有 比 一 般 股东 多 很 多 股票 的 股东 对 诀 策 意见 
的 左 石 能 力 束 要 强 很 多 。 控 股 的 大 股东 拥有 超过 50% 的 股份 ， 这 种 情况 
显然 是 一 家 说 了 算 ( 图 4-9) 。 这 是 一 种 典型 的 加 权 均 值 的 概念 ， 权 重 
就 是 股份 比例 。 












同意 给 我 加 互 资 的 举 手 ... 
好 ， 一 半 以 上 通过 . .. 


51% FRAZER ÍR 





图 4-9 ”股东 大 会 上 的 投票 〈 见 彩 插 ) 


再 如 ， 一 些 重 大 的 国家 重点 建设 项 目 要 进行 广泛 的 意见 听取 和 诀 策 
投票 。 这 种 时 候 的 投票 往往 也 古 加 权 性 质 的 ， 形 式 上 可 能 略 有 不 同 但 是 
实质 没有 区 别 。 


举例 来 说 ， 决 定 茶 地 区 水 电站 建设 最 后 方案 是 否 通过 ， 假 设 项 目 组 
每 个 参与 决策 的 人 员 都 有 打分 的 权利 ， 百 分 制 ， 规 则 如 下 。 


(1〉100 分 为 完全 同意 ，0 分 为 不 同意 ，50 分 为 完全 中 立 。 








(20 只 有 全 部 人 打分 超过 75 分 为 通过 《立刻 按 方 案 执行 ) 。 





(3) 26~74 分 为 再 修改 (意见 正 反 两 派 分 卜 较 大 ， 雷 要 修改 ) 。 


(4) 0~25 分 为 否决 〈 挂 起 或 无 限期 延迟 ) 。 





这 种 情况 下 ， 通 第 是 不 会 把 每 个 人 的 打分 直接 加 和 然后 求 平均 值 
的 ， 取 而 代 之 的 或 许 会 是 以 下 方案 


o 


与 会 的 两 院 院士 的 意见 分 数 有 可 能 是 不 动 的 ， 也 就 是 权 值 为 1。 





与 会 的 当地 主要 领导 权 值 为 0.8。 


与 会 的 当地 能 源 口 的 领导 权 值 为 0.6..………… 





最 后 用 各 目 打 的 分 数 乘 以 这 个 权重 ， 目 然 分 数 会 在 一 定 程度 上 回首 
权 值 高 的 打分 方 倾斜 〈 图 4-10) 。 


总 之 ， 在 决策 中 做 加 权 平 均 的 目的 是 为 了 让 整个 决策 既 融 合 众 多 参 
与 方 、 利 益 方 的 意见 ， 同 时 也 尽量 使 它 向 看 更 权威 、 更 理性 、 更 科学 的 
方面 倾斜 ， 这 是 它 的 核心 指导 思想 。 这 里 只 是 泛泛 地 用 这 样 一 个 场景 做 
说 明 ， 实 际 操作 起 来 会 更 加 复杂 、 严 说 与 合理 。 加 权 平 均 在 决策 中 的 用 
ike BUR LI], FEAST Ee PESE UAI TRA SEIT" (Delphi Method) 
中 加 权 平 均 是 一 个 重要 的 思想 。 





X X 项 目 建 设 方案 投票 
REC: 





项 目 主 要 领导 《财务 方面 领导 
图 4-10 ”投票 中 的 权 值 分 配 


据 称 德尔 菲 法 则 是 在 20 世 纪 40 年 代 由 赫 尔 默 Helmer)〉 K% 
(Gordon) 首创 。1946 年 ， 美 国 兰 德 公司 为 避免 集体 讨论 存在 的 届 从 于 
权威 或 盲目 服从 多 数 的 缺陷 ， 首 次 用 这 种 方法 进行 定性 预测 ， 后 来 该 方 
法 被 迅速 广泛 采用 。20 世 纪 中 期 ， 当 美国 政府 执意 发 动 朝鲜 战争 时 ， 兰 
德 公司 又 提交 了 一 份 预测 报告 ， 预 告 这 场 战 争 必 败 。 政 府 完全 没有 采 
纳 ， 结 果 几 年 后 一 败 涂 地 。 从 此 以 后 ， 德 尔 菲 法 得 到 广泛 认可 。 








这 些 在 经 济 学 、 管 理学 等 领域 使 用 的 加 权 均 值 的 应 用 都 是 其 推广 和 
引申 ， 都 是 在 决策 中 广泛 应 用 的 场景 ， 大 家 有 兴趣 还 可 以 目 己 去 发 现 更 
多 的 例子 。 
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众 数 和 中 位 数 也 有 相关 的 作用 。 


43.4 fre 


看 这 样 一 个 例子 ， 一 个 小 区 的 理发 师 ， 在 对 当天 所 有 前 来 理发 的 人 
做 了 年 龄 登记 后 ， 得 到 这 样 一 个 年 龄 列表 “15、20、22、22、23、35、 
50、72”， 一 共 8 位 顾客 。 其 中 ，22 就 是 众 数 。 众 数 反映 的 是 一 个 多 数 的 
概念 ， 即 一 个 数字 比 其 他 的 数字 出 现 得 多 ， 或 者 更 普遍 


再 如 ， 我 的 同事 娟 娟 也 为 我 贡献 了 两 个 例子 : 其 一 ， 她 每 个 月 都 要 
读 几 本 书 ， 去 年 一 年 每 个 月 读书 的 数量 分 别 为 “2、2、3、2、3、2、1、 
1、1、0、1、6” 这 里 面 有 两 个 众 数 一 一 1 和 2， 都 是 出 现 最 多 的 ， 均 为 
4 次 ， 而 其 他 数值 出 现 的 次 数 比 4 次 少 ， 这 说 明 普 所 每 个 月 会 读 1 本 书 或 
者 2 本 书 ， 其 二 ， 她 每 周 要 看 一 部 电影 ， 两 个 月 统计 下 来 每 周 看 的 电影 
AU ROCA. €RHE. JA. TR. TCR. SEL BEA). mj". H 
中 , “喜剧 ?是 众 数 ， 出 现 3 次 《图 4-11) 。 











(EE), RE s A 
《喜剧 之 王 》 的 电影 票 ， 









好 啊 ， 我 超级 爱 
SES oA SB: 







图 4-11 看 电影 


首先 ， 我 们 可 以 感性 地 理解 众 数 就 是 在 样本 对 象 中 出 现 最 多 的 那个 
数字 。 但 是 在 最 后 的 例子 里 我 们 也 看 到 ， 虽 然 叫做 “ 众 数 "， 可 是 不 一 定 
是 数字 ， 也 有 可 能 是 别 的 数据 类 型 ， 例 子 里 给 的 古 一 个 电影 类 型 的 文字 
枚 举 值 。 当 然 ， 如 果 在 样本 对 象 中 没有 任何 一 个 数值 比 其 他 对 象 多 《如 
所 有 的 数值 都 只 出 现 一 次 ， 或 者 都 出 现 两 次 .……) ， 这 种 情况 下 是 不 存 
在 众 数 的 ， 也 就 是 说 没有 一 个 数字 比 其 他 的 数字 出 现 得 更 多 。 





众 数 在 我 们 日 常生 活 中 应 用 的 例子 也 是 有 的 ， 如 娟 娟 每 周 都 要 看 电 


> MURE M HE ce AR BUX Tas CU ERSTER AS, MEAS 
剧 电 影 囚 请 她 看 电影 的 情况 下 会 比 买 两 张 战争 题材 或 者 其 他 故事 片 电影 
更 有 成 功 的 把 握 。 这 种 众 数 的 应 用 场景 惑 是 对 人 偶 好 特点 的 描述 








对 于 做 数据 库 开 发 的 人 来 说 ， 平 时 在 做 


SELECT COUNT « 
we 


XXX FROM TABLE GROUP BY XXX; 








进行 这 种 操作 时 也 是 在 答 试 求 众 数 ， 只 是 可 能 很 多 时 候 的 结果 中 有 
可 能 得 不 到 众 数 而 已 。 


43.2 rw 





中 位 数 ， 顾 名 思 义 ， 就 是 位 于 中 间 位 置 的 数字 。 





举 个 例子 ， 一 组 新 毕业 的 大 学 生 参 加 新 员工 入 职 体检 ， 身 高 测量 样 
本 如 下 《单位 为 厘米 ) ， 从 小 到 大 排序 "168、172、175、175、177、 
185、205”， 一 共 7 个 数字 ， 中 位 数 是 175 一 一 从 高 到 低 数 也 是 第 4 个 ， 从 
低 到 高 数 也 是 第 4 个 。 如 果 是 8 个 数字 ,，“168、172、175、175、177、 
177、185、205”、 那 么 中 位 数 是 176， 即 177+175/2。 找 到 中 位 数 就 是 这 
么 简单 。 


在 这 个 例子 里 面 可 以 发 现 一 个 特性 ， 就 是 有 一 个 比 一 般 人 高 很 多 的 
新 员工 一 一 身高 205 厘 米 的 这 位 ， 这 样 7 个 人 平均 值 是 179.57， 比 中 位 数 
175 明 显 大 一 些 。 如 果 去 掉 205 这 个 样本 再 求 一 次 平均 值 ， 平 均值 为 
175.33， 中 位 数 是 175。 用 中 位 数 来 描述 样本 的 分 布 ， 在 一 定 程度 上 可 
以 消除 个 别 极端 值 对 整个 样本 平均 值 的 影响 。 











我 们 平时 在 生活 中 用 平均 值 来 描述 样本 的 情况 比较 多 ， 而 较 少 用 众 
数 和 中 位 数 ， 主 要 是 因为 平时 生活 中 的 场景 中 多 为 正 态 分 布 ， 所 以 平均 
值 、 中 位 数 、 众 数 非常 接近 ， 那 么 只 用 平均 值 最 多 加 上 标准 差 来 表示 即 

能 够 满足 一 般 性 的 描述 需求 。 至 于 正 态 分 布 是 什么 ， 后 文 将 会 介绍 
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在 刚刚 讲述 标准 差 的 例子 里 其 实 我 们 还 用 到 一 个 概念 ， 就 是 欧 氏 距 
Bj (Euclidean Distance) ， 只 是 当时 没有 提出 这 个 概念 。 回 想 一 下 计算 
标准 差 的 过 程 , “把 每 个 学 生 每 门 课 的 成 绩 减 去 平均 分 ， 再 把 这 些 差 值 
分 别 平方 ， 将 这 些 平方 的 结果 再 加 和 ， 之 后 除 以 学 生 数 量 ， 最 后 开平 
215 
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方 ”， 这 其 实 就 是 在 求 “ 欧 氏 距离 ”的 过 程 。 








所 谓 欧 氏 距 离 中 的 “ 欧 ? 指 的 是 被 称 作 几何 之 父 的 证 和 希腊 数学 家 欧 几 
里 得 。 欧 氏 距 离 是 在 其 巨著 《几何 原本 》 中 提 到 的 一 个 非常 重要 的 概 
念 。 欧 氏 距离 的 定义 大 概 是 这 样 的 : 在 一 个 N 维 度 的 空间 里 ， 求 两 个 点 
的 距离 ， 这 个 距离 肯定 是 一 个 大 于 等 于 0 的 数字 《也 就 是 次 没有 负 距 
离 ， 节 小 也 就 是 两 个 点 重合 的 零 距 离 ) ， 那 么 这 个 距离 需要 用 两 个 点 在 
各 目 维 度 上 的 坐标 相 减 ， 平 方 后 加 和 再 开平 方 。 





欧 氏 距离 使 用 的 范围 实在 是 太 广 泛 了 ， 我 们 几乎 每 天 都 在 使 用 。 





一 维 的 应 用 就 相当 多 ， 如 在 地 图 上 有 一 条 笔直 的 东西 向 或 者 南北 问 
的 路 ， 在 上 面 有 两 个 点 ， 怎 么 量 取 它们 在 地 图 上 的 距离 ? 数 轴 标 识 如 图 
4-12 所 示 ， 可 以 用 厂子 的 刻度 贯穿 两 个 点 ， 大 值 减 小 值 就 能 和 直接 得 出 结 





果 ， 最 多 再 乘 以 一 个 比例 尺 束 能 得 到 实际 的 大 小 。 或 者 用 其 中 一 个 扣 的 
读数 减 去 另外 一 个 点 的 读数 ， 不 管 结果 正 负 ， 将 它 平 方 后 再 开 方 ， 还 是 
一 个 非 负 数 的 值 ， 这 两 种 办 法 本 质 上 没有 什么 区 别 。 地 图 明明 是 一 个 二 
维 平 面 的 概念 ， 为 什么 非 要 说 是 一 维 的 呢 ? 只 征 因 为 量 取 的 手段 和 一 维 
一 样 ， 只 参考 一 个 维度 的 读数 就 可 以 了 。 
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图 4-12 ” 欧 氏 距离 一 维 的 应 用 


二 维 的 应 用 也 是 很 多 的 ， 其 中 最 典型 的 莫 过 于 人 们 熟知 的 “ 勾 股 定 
Hb. AUT: 
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在 一 个 直角 三 角形 里 ， 斜 边 长 度 等 于 两 个 直角 边 平 方 之 和 再 开 方 。 
这 其 实 就 是 求 斜 边 两 个 端点 的 欧 氏 距 离 ， 别 筷 了 这 里 有 一 个 隐 仿 条件， 
就 是 斜 边 距离 是 不 能 用 尺子 直接 去 量 的 ， 只 能 用 两 个 已 知 的 直角 边 的 长 
度 做 条 件 。 至 于 和 斜 边 长 度 等 于 两 个 直角 边 之 和 的 定理 在 不 同 的 阶段 用 三 
角 函 数 作 为 工具 证 明 过 ， 用 面积 作为 工具 证 明 过 ， 用 相似 三 角形 的 方法 














证 明 过 ， 方 法 实在 是 太 多 了 ， 在 百度 网 页 搜索 中 我 们 至 少 可 以 找到 16 种 


完全 不 同 而 且 都 是 正确 的 方法 。 图 4-13 所 示 为 一 种 二 维 空间 中 的 向 量 计 


算 方式 示意 图 ， 在 知道 癌 量 分 别 在 x 轴 和 y 轴 的 投影 之 后 束 能 用 勾 股 定理 


求 出 网 氏 距 离 。 











图 4-13 ”二 维 空间 中 的 同 量 计算 


推广 到 三 维 的 应 用 ， 还 是 可 以 使 用 勺 股 定理 的 思路 进行 计算 。 每 个 
点 都 癌 3 个 平面 各 做 一 条 垂 线段 ， 可 以 看 出 ， 两 个 点 的 距离 其 实 束 是 一 
个 长 方 体 的 对 角 线 长 度 。 最 后 得 到 距离 为 3 个 维度 的 坐标 兰 值 分 别 平 方 


加 和 再 开平 方 : 








了 
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这 只 是 在 两 个 平面 空间 中 用 了 两 次 勾 股 定理 而 已 。 


例如 ， 在 忽略 地 球 目 喘 弧度 的 情况 下 ， 求 两 个 距离 较 近 的 不 同 高 度 
的 楼 宇 顶 部 距离 ， 完 全 可 以 使 用 这 种 欧 氏 距离 的 定义 且 接 求解 。 如 图 4- 
14 所 示 ， 在 三 维 空间 中 ， 实 际 需 要 使 用 两 次 二 维 空间 上 的 色 股 定理 就 能 
计算 出 三 维 空间 中 的 两 点 之 间 的 欧 氏 距离 。 
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图 4-14 三 维 空间 中 的 欧 氏 距离 应 用 


根据 上 述 一 维 、 二 维 、 三 维 的 欧 氏 距离 计算 方法 : 


了 





N 


可 以 推断 四 维 、 五 维 一 直到 N 维 空间 上 的 欧 开 距离 的 计算 公式 ， 一 
N 个 维度 的 “读数 ” 差 的 平方 再 开 方 。 





欧 氏 距离 除了 刚刚 举 的 例子 ， 在 后 面 数 据 挖掘 部 分 会 有 很 多 应 用 场 
景 。 它 主要 用 来 描述 两 个 多 维 点 之 间 的 “距离 ?， 遗憾 的 是 ， 三 维 以 下 的 
点 和 点 的 距离 通过 刚刚 的 讲解 很 容易 出 现 画 面 感 ， 四 维和 四 维 以 上 的 距 
离 就 只 能 赁 想象 了 ， 只 是 在 计算 中 确实 存在 且 有 对 应 的 含义 解释 。 这 种 
解释 通常 也 用 来 直接 判断 两 个 点 在 多 维 关系 上 谁 与 谁 更 “ 近 ”， 虽 然 超过 
三 维 的 情况 下 这 个 “ 近 ” 已 经 没有 办 法 用 手边 的 工具 量 出 来 。 例 如 ， 在 一 
个 五 维 空间 里 ，A 点 和 B 点 的 距离 为 6，A 点 和 C 点 的 距离 为 10， 那 么 就 
可 以 认为 B 点 到 A 点 的 距离 比 C 点 到 A 点 的 距离 更 近 ， 这 样 就 是 够 了 。 
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介绍 了 欧 氏 距离 ， 再 来 介绍 一 下 曼哈顿 距离 (Manhattan 


Distance) 。 


欧 氏 距离 是 人 们 在 解析 几何 里 最 常用 的 一 种 计算 方法 ， 但 是 计算 起 
来 比较 复 杀 ， 要 和 平方， 加 和 ， 再 开 方 ， 而 人 们 在 空间 几何 中 度量 距离 很 
多 场合 其 实 是 可 以 做 一 些 简化 的 。 曼 哈 顿 距 离 就 是 由 19 世 纪 著 名 的 德国 
犹太 人 数学 家 尔 曼 .闵可夫 斯 基 发 明 的 〈 图 4-15) . H 
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他 是 后 来 四 维 时 空 理论 的 创立 者 ， 也 曾经 是 著名 物理 学 家 爱 因 斯 坦 的 老 
师 。 





曼哈顿 距离 也 叫 出 租车 距离 ， 用 来 标明 两 个 点 在 标准 坐标 系 上 的 绝 
对 轴 距 总 和 。 简 单 来 说 ， 对 比 一 下 欧 氏 距离 。 


欧 氏 距离 里 的 距离 计算 : 


(x, =x) t(4-X») 





曼哈顿 距离 中 的 距离 计算 : 





e-x-x *lx- 


曼哈顿 距离 中 的 距离 计算 公式 比 欧 氏 距离 的 计算 公式 看 起 来 简洁 很 
多 ， 只 需要 把 两 个 点 坐标 的 x 坐标 相 减 取 绝 对 值 ，y 坐 标 相 减 取 绝对 值 ， 
再 加 和 。 


从 公式 定义 上 看 ， 曼 哈 顿 距离 一 定 是 一 个 非 负 数 ， 距 离 最 小 的 情况 
就 是 两 个 点 重合 ， 距 离 为 0， 这 一 点 和 欧 氏 距离 一 样 。 受 哈 顿 距离 和 欧 
下 距离 的 意义 相近 ， 也 是 为 了 描述 两 个 点 之 间 的 距离 ， 不 同 的 是 曼哈顿 
距离 只 需要 做 加 减法 ， 这 使 得 计算 机 在 大 量 的 计算 过 程 中 代价 更 低 ， 而 

会 消除 在 开平 方 过 程 中 取 近 似 值 而 带 来 的 误差 。 不 仅 如 此 ， 曼 哈 顿 距 
离 在 人 脱离 计算 机 做 计算 的 时 候 也 会 很 方便 。 举 例如 下 。 
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图 4-16 国际 象棋 


在 国际 象棋 棋盘 《〈 图 4-16) 上 ， 有 这 种 横 平 竖 直 的 格子 ， 描 述 格子 
和 格子 之 间 的 距离 可 以 直接 用 曼哈顿 距离 。 如 Al 格子 到 C4 格 子 的 曼 哈 
顿 距 离 计 算 如 下 : 





c=3-1|+|4-1|=5 
两 个 格子 之 间 的 曼哈顿 距离 为 5。 


之 所 以 曼哈顿 距离 又 被 称 为 出 租车 距离 是 因为 在 像 纽 约 曼哈顿 区 这 
样 的 地 区 有 很 多 由 横 平 紧 直 的 街道 所 切 成 的 街区 (Block), HÆK] 
机 计算 从 一 个 位 置 到 另 一 个 位 置 的 距离 ， 通 常 直 接 用 街区 的 两 个 坐标 分 
别 相 减 ， 再 相 加 ， 这 个 结果 就 是 他 即将 开车 通过 的 街区 数量 ， 而 完全 没 
有 必要 用 欧 氏 距离 来 求解 一 一 算 起 来 超级 麻烦 还 没有 意义 ， 毕 竟 谁 也 没 


办 法 从 欧 氏 距离 的 直线 上 飞 过 去 。 如 图 4-17 7! 所 示 ， 假 设 一 辆 出 租车 要 
从 上 面 的 圆圈 位 置 走 到 下 面 的 圆圈 位 置 ， 无 论 是 左边 的 线路 ， 还 是 右边 
的 线路 ， 都 要 经 过 11 个 街区 ， 而 这 个 11 就 是 曼哈顿 距离 。 


从 曼哈顿 距离 的 定义 就 能 看 出 ， 曼 哈 顿 距离 的 创立 ， 与 其 说 有 很 大 
的 学 术 意义 不 如 说 更 多 的 是 应 用 意义 。 这 也 是 本 书 一 直 想 说 的 一 点 ， 数 

学 就 在 我 们 吴 边 ， 它 是 我 们 的 工具 ， 能 帮 我 们 解决 问题 而 不 是 带 来 麻 
Jj. 
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图 4-17 曼哈顿 距离 的 应 用 


上 面 的 公式 只 给 了 二 维 空间 上 的 曼哈顿 距离 公式 ， 三 维 、 四 维 或 者 
更 多 维度 的 计算 原理 是 一 样 。 


[1] 图 片 来 源 于 百度 图 库 。 
[2] 图 片 来 源 于 谷歌 地 图 ， 曼 哈 顿 街区 。 








4.6 同比 和 环比 


在 看 一 些 公司 的 财务 报告 或 者 看 新 闻 的 时 候 ， 常 常会 听 到 “今年 7 月 
销售 额 1000 万 元 ， 同 比 去 年 增长 100%， 环 比 增长 25%” 诸 如 此 类 的 说 
法 。 


何 为 同比 ? 就 是 “与 相 邻 时 段 的 同一 时 期 相 比 ”的 意思 ， 在 这 个 例子 
里 ， 今 年 7 月 同比 增长 10% 的 意思 就 是 今年 7 月 的 销售 额 和 去 年 7 月 的 销 
售 额 相 比 增长 10%， 这 样 推断 来 看 ， 去 年 7 月 销售 额 应 该 是 500 万 元 〈 图 
4-18 (a) ) 。 








何 为 环比 ? 就 是 直接 和 上 一 个 报告 期 进行 比较 ， 在 这 个 例子 里 ， 环 
比 增 长 25% 的 意思 就 是 今年 7 月 的 销售 额 和 今年 6 月 的 销售 额 相 比 增长 
259%， 这 样 推断 来 看 ， 今 年 6 月 的 销售 额 为 800 万 元 〈 图 4-18 b) ) 。 














(a) 同比 
图 4-18 ”同比 与 环比 ( 见 彩 插 ) 








但 是 ， 在 真实 应 用 的 时 候 通 常 是 不 会 这 样 来 反 推 前 值 的 ， 而 是 先 得 


到 前 值 和 当期 值 然后 做 比较 得 出 同比 和 环比 。 


这 种 比 对 其 实 也 是 天 然 形 成 的 ， 要 知道 在 公司 或 组 织 运 营 中 通常 豆 
欢 用 周期 性 单位 来 做 计划 ， 不 管 是 预算 计划 ， 还 是 工作 任务 分 派 计划 ， 
用 周 、 月 、 季 度 、 年 都 是 可 以 的 ， 选 取 的 周期 大 小 完全 取决 于 工作 场景 
中 这 个 周期 是 不 是 容易 把 握 和 调整 。 在 一 个 周期 结束 的 时 候 ， 通 常 要 对 
这 个 周期 的 工作 内 容 进行 总 结 ， 这 种 忌 结 的 目的 就 是 对 比 和 经 验 归 纳 ， 
手段 通常 就 用 同比 和 环比 。 











同比 、 环 比 的 周期 在 选用 时 要 适当 ， 太 小 不 方便 ， 太 大 同样 不 方 
便 。 我 们 可 以 把 同比 和 环比 看 成 体检 ， 惑 好比 每 个 人 做 体检 ， 一 年 一 
次 ， 一 年 两 次 即 可 。 再 有 钱 也 没有 必要 一 天 体检 一 次 ， 而 十 年 八 年 才 体 
检 一 次 您 怕 对 疾病 预防 起 不 到 什么 作用 。 





举 个 生产 中 常见 的 例子 ， 例 如 ， 互 联网 公司 用 周 和 月 甚至 是 天 做 短 
期 的 运营 时 间 单 位 ， 因 为 可 以 在 比较 短 的 时 间 内 看 到 反馈 和 周期 性 变化 
的 规律 特点 ， 用 年 做 单位 则 显得 有 些 笨重 ， 反 馈 慢 。 互 联网 公司 常用 的 
同比 环比 的 对 象 有 什么 呢 ? 日 /月 活跃 用 户 数 ， 简 称 “ 日 活 ” 和 “月 活 ”， 这 
是 经 常用 来 做 同比 和 环比 的 对 象 ， 还 有 日 PV 数 (Page Views) ， 也 就 是 
俗称 的 点 击 量 ， 一 个 用 户 发 生 一 次 网 页 访问 就 算 一 个 PV， 很 多 互联 网 
公司 在 做 运营 时 把 PV 数 当成 一 个 网 站 活跃 程度 重要 的 指标 。 图 4-19 所 示 
为 新 浪 网 Cwww.sina.com.cn ) 的 Alexa 网 站 排名 ， 其 中 “日 均 PV[ 周 平 
均 ]” 的 概念 就 是 统计 7 天 的 PV 数 然后 除 以 7， 大 约 5.64 亿 次 一 一 真是 不 得 
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图 4-19 ”新 浪 网 的 Alexa 网 站 排名 
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如 果 把 国家 也 看 成 一 个 公司 来 运营 ， 它 的 大 政 方针 通常 用 年 ， 甚 至 
是 5 年 来 做 运营 时 间 单 位 ， 如 果 用 日 和 周 则 会 使 得 计划 过 于 细碎 ， 对 于 
细节 也 非常 难以 做 到 有 效 的 反 饿 和 调整 。 


同比 和 环比 在 我 们 平时 制作 报表 的 时 候 会 经 常用 到 ， 对 比 的 对 象 也 
很 丰富 ， 可 以 对 比 某 些 项 目的 加 和 值 ， 也 可 以 对 比 乎 均值 ， 只 要 是 同一 
对 象 同 一 单位 的 值 对 比 就 是 有 意义 的 。 另 外 ， 同 比 和 环比 也 是 在 平时 公 
司 报表 中 最 常用 的 比较 手段 之 一 ， 几 乎 所 有 的 营业 指标 都 可 以 使 用 同比 
和 环比 进行 自我 比较 ， 很 直观 也 很 方便 。 














而 在 所 有 的 营业 指标 里 最 常用 的 周期 指标 通常 是 “月 同比 ”和 “月 环 
比 ”"， 除 了 周期 大 小 较为 合适 以 外 ， 月 环比 能 够 与 最 近 一 个 经 营 周 期 做 
对 比 ， 便 于 快速 反应 ; 而 月 同比 是 和 去 年 的 同期 月 相 比 ， 这 种 比较 会 过 
小 掉 一 些 周期 性 的 波动 的 影响 因素 。 





举 个 例子 ， 某 网 吧 2014 年 9 月 份 在 其 网 吧 装 机 规模 一 直 没有 变化 的 
情况 下 上 座 率 环比 下 降 25%， 同 比 上 升 10%， 这 说 明 它 经 营 情 况 下 滑 了 
吗 ? 不 一 定 ， 要 知道 9 月 份 和 8 月 份 有 一 个 很 大 的 区 别 是 中 小 学 生 哮 假 假 
期 正好 在 8 月 底 结 束 ， 很 多 孩子 没有 假期 那么 自由 能 够 去 上 网 了 ， 网 吧 
的 上 座 率 由 于 这 种 周期 性 波动 产生 的 环比 下 降 是 一 种 自然 且 正 常 的 波 
动 。 而 同比 上 升 10% 就 说 明 今 年 9 月 份 比 去 年 9 月 份 上 座 率 还 是 提高 了 
109%6， 因 此 不 能 断定 网 吧 的 经 营 有 下 滑 。 














这 样 的 季节 或 人 为 性 规律 的 周期 性 影响 在 生产 生活 中 有 很 多 ， 尤 其 
古 跟 行业 结合 的 时 候 会 有 很 多 细节 值得 关注 ， 请 各 位 读者 特别 注意 这 一 
点 ， 切 真 生 搬 便 套 。 








4.7 抽样 











qui (Sampling) 是 一 种 非常 好 的 了 解 大 量 样本 空间 分 布 情况 的 方 
法 ， 样 本 越 大 则 抽样 带 来 的 成 本 减少 的 收益 瓯 越 明显 。 





例如 ， 一 个 大 型 食品 加 工厂 一 天 要 出 货 100 万 包 方 便 面 。 为 了 检验 
方便 面 的 质量 或 者 说 合格 率 ， 在 出 三 的 时 候 每 一 包 都 打开 检验 一 下 是 很 
不 现实 的 。 就 算 时 间 多 许 ， 所 有 的 方便 面 都 开 包 测 重 金属 、 梢 群 数量 、 
酸 价 .…… 即 便 这 种 方法 检测 出 来 的 结果 能 够 覆盖 所 有 的 出 三 方便 面 ， 也 
确实 是 一 种 极为 精确 的 方法 ， 然 而 这 些 方便 面 在 被 检验 后 也 只 能 扔 进 垃 
圾 堆 了 ， 完 全 不 具备 可 操作 性 。 图 4-20 H 所 示 为 用 已 经 粉末 化 的 方便 面 
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而 在 实际 生产 中 通常 怎么 做 呢 ? 


在 方便 面 出 三 的 时 候 一 般 是 这 样 做 的 一 一 其 实 别 的 很 多 产品 操作 方 
法 也 相近 ， 用 类 似 扔 人 般 子 的 方法 来 选择 取 哪 几 箱 ， 哪 几 包 方便 面 ， 取 出 
一 定 的 比例 来 做 随机 抽 测 ， 这 在 我 国 的 产品 质量 检验 国家 标准 中 是 有 明 
文 规定 的 。GB 10111 标 准 就 规定 了 利用 随机 数 般 子 进行 随机 抽样 的 方 
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标 有 0~9 的 读数 ， 每 个 读数 占 两 面 ， 如 图 4-21 7! 所 示 。 





图 4-20 ”方便 面 的 酸 价 测试 








倘若 100 万 包 里 只 挑 出 100 包 来 做 测试 ， 如 果 发 现 有 1 包 有 质量 问 
题 ， 按 照 抽样 比例 会 推定 所 有 的 100 万 包 里 有 可 能 有 10000 包 面 有 相同 的 
质量 问题 ， 同 理 ，2 包 有 质量 问题 就 推定 会 有 20000 包 面 有 相同 的 质量 问 
题 。 在 真实 的 操作 中 ， 这 种 抽检 的 比例 有 可 能 会 更 低 ， 不 会 天 天 都 检 
测 ， 如 半年 一 次 ， 一 次 若干 包 。 这 种 方式 虽然 看 上 去 可 能 会 产生 “漏网 
之 鱼 "， 会 有 一 定 的 几率 让 不 合格 产品 流向 市 场 ， 但 是 从 工业 生产 的 角 
度 来 说 操作 性 大 大 增强 ， 操 作成 本 也 降 到 极 低 。 毕 竟 检 验 手段 的 发 明和 
进步 ， 究 其 根本 还 是 为 了 保证 产业 的 良性 发 展 而 绝 非 阻碍 其 发 展 。 

















图 4-21 201i CT 


抽样 也 可 以 应 用 于 许多 别 的 领域 ， 如 在 类 似 民意 调查 中 使 用 抽样 ， 
同样 可 以 事半功倍 起 到 非常 好 的 作用 。 有 一 个 例子 也 很 经 典 ， 就 是 美国 
民意 调查 的 例子 ， 这 个 例子 也 见于 涂 子 沛 先生 的 《数据 之 凯 》 一 书 ， 非 
常 有 趣 。 





1936 年 ， 一 本 叫做 《文学 文摘 》 的 杂志 在 对 240 万 名 普通 美国 民众 
进行 了 民意 调查 问卷 后 ， 得 到 结论 ， 认 为 兰 登 (Alfred Landon) 会 当选 
第 33 任 美国 总 统 。 要 知道 240 万 的 民众 可 不 算 小 数目 ， 印 发 、 邮 寄 、 统 
计 ， 这 些 都 会 消耗 大 量 的 人 工 成 本 。 但 是 《文学 文摘 》 选 取 这 么 大 的 一 
个 样本 进行 统计 ， 从 目的 来 看 显然 是 认为 调查 对 象 越 多 则 调查 结果 越 准 
确 ， 为 此 他 们 不 惜 血本 。 此 时 ， 一 所 刚刚 成 立 不 久 的 研究 所 出 现 了 ， 它 
只 对 5000 人 进行 了 调查 ， 根 据 调 查 结果 他 们 判断 罗斯 福 会 胜出 。 这 家 研 














完 所 就 是 1935 年 成 立 的 美国 舆论 研究 所 CAIPOO ， 它 的 芮 基 人 是 美国 
民意 调查 科学 化 的 先驱 
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成 功 预测 了 16 次 ， 这 是 一 个 非常 惊人 的 成 就 。 但 是 盖 洛 普 是 怎么 通过 
5000 张 问卷 就 能 击败 240 万 张 问卷 的 调查 结果 呢 ? 难 道 240 万 张 问卷 数量 
多 反而 更 不 准 吗 ? 











这 就 是 我 们 在 应 用 抽样 中 需要 注意 的 一 个 问题 ， 那 就 是 抽样 对 象 要 
更 加 有 代表 性 和 分 散 性 ， 这 样 才 会 体现 出 与 整个 样本 空间 更 为 相近 的 分 
布 特点 。 


前 面 例子 提 到 的 “用 类 似 扔 骨 子 的 方法 来 选择 取 哪 儿 箱 ， 哪 几 包 方 
便 面 ， 取 出 一 定 的 比例 来 做 随机 抽 测 ”本 喘 就 是 为 了 规避 人 为 选择 的 偏 
问 性 ， 证 每 一 箱 、 每 一 包 都 有 相等 的 机 会 被 选中 。 而 总 统 选举 这 种 场景 
可 以 想见 ， 投 票 人 里 面 涵盖 了 大 量 的 不 同 阶级 、 不 同 种 族 、 不 同 利益 团 
体 的 对 新 总统 期 望 的 价值 取向 ， 那 么 在 设计 抽样 对 象 时 就 应 该 考虑 按照 
人 口 比 例 进 行 缩小 并 兼顾 各 种 利益 团体 的 样本 才 会 更 为 准确 ， 如 白人 、 
黑人 的 比例 ， 不 同 州 的 人 口 比例 ， 工 人 、 中 产 阶级 、 资 本 家 的 比例 ， 
男 、 女 性 的 比例 等 因素 。 








随 着 计算 机 存储 能 力 和 计算 能 力 的 不 断 增 强 ， 全 样本 空间 的 统计 和 
计算 的 成 本 变 得 越 来 越 低 ， 所 以 抽样 统计 现在 更 多 地 应 用 于 一 些 对 于 样 








本 收集 和 存储 成 本 过 高 的 领域 ， 或 者 由 于 种 种 原因 不 能 做 全 样本 收集 的 
情况 ， 如 食品 检验 、 人 口 统 计 、 大 气 /水 污染 检验 等 领域 。 


抽样 的 合理 运用 在 人 们 生产 中 会 发 挥 其 "轻巧 ”的 作用 ， 对 于 那些 只 
再 少量 看 统计 效果 ， 人 快速 出 反馈 的 试探 性 操作 来 说 ， 抽 样 应 该 是 再 合适 
不 过 的 高 效 、 低 成 本 的 操作 方式 了 。 





[1] 图片 来 自 百度 图 库 。 
[2] 图 片 来 自 百 度 图 库 。 


前 面 的 章节 曾经 提 到 过 一 个 概念 ， 叫 做 “ 正 态 分 布 ”。 





正 态 分 布 (Normal Distribution) 又 名 高 斯 分 布 〈Gaussian 
Distribution) ， 是 一 个 在 数学 、 物 理 及 工程 等 领域 都 非常 重要 的 概率 分 
布 ， 在 统计 学 的 许多 方面 有 着 重大 的 影响 力 。 








约翰 :卡尔 : 弗 里 德里 希 : 高 斯 (Johann Carl Friedrich Gauss) 是 德国 
著名 数学 家 、 物 理学 家 、 天 文学 家 、 大 地 测量 学 家 ， 他 是 近代 数学 黄 基 
者 之 一 ， 被 认为 是 历史 上 最 重要 的 数学 家 之 一 ， 并 享有 “数学 王子 ”的 美 
誉 。 他 的 头像 也 被 印 在 以 前 德国 的 官方 货币 一 一 德国 马克 10 马 元 上 ， 图 
4-22!!! 所 示 为 10 德 国 马克 上 的 高 斯 头像 。 有 一 种 说 法 认为 ， 高 斯 和 阿 基 
米 德 、 牛 顿 并 列 为 世界 三 大 数学 家 一 一 虽然 这 个 说 法 没有 得 到 书面 和 史 
料 方面 的 支持 。 但 是 客观 地 评价 ， 高 斯 、 阿 基 米 德 、 牛 顿 这 3 位 科学 家 
对 于 数学 发 展 的 贡献 确实 都 是 丰碑 性 质 的 ， 这 点 给 庸 置 疑 。 











先 来 看 一 下 高 斯 分 布 的 概率 密度 函数 : 
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德国 马克 上 的 高 斯 汰 像 


图 4-23 所 示 为 高 斯 密度 函数 的 函数 曲线 。 


图 4-23 高 


34.1% | 34.196 





斯 密度 函数 的 函数 曲线 





熟悉 高 斯 分 布 的 人 自然 党 
些 不 知 所 云 ， 这 里 简 


得 非常 亲切 ， 不 熟悉 高 斯 分 布 的 朋友 估计 
单 介绍 一 下 。 





先 介绍 一 下 什么 是 概率 密度 函数 ， 大 家 知道 ，y=f GO 这 种 表达 式 
是 以 前 在 中 学 学 习 函 数 时 使 用 的 一 种 表达 式 ， 表 示 函 数值 y 和 自 变 量 x 函 
HRR, f OO) 展开 之 后 就 具体 解释 了 x 参与 运算 的 过 程 。 而 概率 密度 
实际 指 的 是 y=f GO ，x 是 样本 特性 自 变量 ，y 是 x 在 这 个 样本 特性 上 的 
数量 比例 。exp 指 的 是 自然 常数 e 的 过 函数 ， 即 e 的 多 少 次 震 的 概念 〈e 是 
一 个 无 理 数 ， 也 就 是 无 限 不 循环 小 数 ，es2.71828...) 。 这 个 函数 的 峰 
值 在 x=h 的 位 置 ， 此 时 对 应 的 函 bun d 2z0 。 其 实 这 里 样本 数量 的 计 
算 用 的 是 定 积 分 的 定义 ， 即 整个 函数 曲线 在 其 下 方 围 住 的 与 y=0 Gt 
所 围 成 的 面积 占 比 。 它 在 x=h 左 右 两 侧 的 函数 是 对 称 的 ，x 在 p-o 和 ph+o 之 
间 的 样本 数量 占 到 整个 样本 数量 的 68.2%，x 在 p-2o 和 p+20o 之 间 的 样本 数 
量 占 到 整个 样本 数量 的 95.4%，x 在 h-3o 和 ph+30o 之 间 的 样本 数量 占 到 整个 
样本 数量 的 99.6%。 





























高 斯 分 布 作为 分 布 特性 的 一 种 ， 首 先是 用 来 描述 统计 对 象 的 ， 如 果 
统计 对 象 的 分 布 特性 符合 高 斯 分 布 ， 那 么 所 有 针对 高 斯 分 布 的 定理 
和 “经 验 值 ” 就 能 够 直接 套用 。 而 高 斯 分 布 本 身 在 自然 界 的 应 用 是 非常 
泛 的 ， 用 一 句 话 解释 高 斯 分 布 所 表现 的 分 布 特点 就 是 “一 般 般 的 很 多 ， 
极端 的 很 少 ”。 














这 里 举 一 个 具体 的 例子 ， 假 如 对 某 一 地 区 的 男性 喘 高 做 了 一 个 随机 
抽样 ， 一 共 1000 人 ， 结 果 发 现 他 们 的 身高 是 一 个 y=175cm 的 高 斯 分 布 ， 
ao=10cm。 那 么 首先 ， 这 样 一 个 描述 就 已 经 能 够 清晰 地 说 明 这 个 抽样 检 


查 的 结果 了 ， 而 以 下 结论 也 就 随 之 成 立 ( 图 4-24) . 


身高 165~175cm 的 人 人 (大约) 有 341 名 。 


身高 175~185cm 的 人 人 (大约) 有 341 名 。 


身高 155~165cm 的 人 人 (大约) 有 136 名 。 


身高 185~195cm 的 人 (KA) 有 136 名 。 


身高 145~155cm 的 人 人 (大约) 有 21 名 。 


身高 195~205cm 的 人 人 (大约) 有 21 名 。 





[0.008 m 
一 














图 4-24 1000 人 的 身高 分 布 





这 些 数量 基本 已 经 涵盖 了 统计 总 人 数 的 99.6%。 需 要 注意 的 是 ， 根 





所 统计 的 情况 在 不 同 的 条 件 下 py 和 o 的 值 可 能 会 不 同 。 


bH 较 大 ， 则 整个 函数 图 像 的 中 轴 问 右 挪动 比较 多 。 





HH 较 小 ， 则 函数 图 像 的 中 轴 同 左 挪 动 比 较 多 。 
0 较 大 ， 则 整个 曲线 绢 延 比 较 长 ， 整 个 坡度 显得 平缓 。 
0 较 小 ， 整 个 曲线 罕 而 立 陡 。 


符合 高 斯 分 布 特性 的 对 象 是 非常 多 的 ， 平 时 也 会 看 到 很 多 这 种 “一 
般 般 的 很 多 ， 极 端的 很 少 ” 的 现象 。 如 平时 小 区 里 的 汽车 ， 其 中 中 档 的 
比较 多 ， 高 级 的 比较 少 ， 特 别 破 的 也 比较 少 《〈“ 在 不 同 档次 的 社区 注意 h 
可 能 会 不 同 ， 就 是 平均 水 平 在 不 同 小 区 之 间 可 能 偶 兰 很 多 ， 高 档 小 区 的 
车 普 裔 比较 好 ，p 束 比较 大 ; 低档 小 区 的 车 普 衣 不 大 好 ，p 就 比较 小 〉。 
如 茶 小 区 如 图 4-25 所 示 ， 大 部 分 人 买 的 汽车 都 30 万 左右 ， 价 格 高 的 和 低 
的 汽车 数量 都 随 着 与 30 万 的 距离 变 大 而 逐渐 变 少 。 











我 们 平时 接触 的 人 里 ， 智 慧 一 般 的 人 很 多 ， 非 常 聪明 的 人 较 少 ， 非 
常 思 笨 的 人 也 较 少 〈 在 一 些 大 公司 或 者 重点 学 校 里 虽然 整体 的 聪明 程度 
提高 ， 但 是 还 是 存在 这 个 小 范围 内 的 高 斯 分 布 ， 即 p 比 较 偏 右 ， 而 o 比 较 
小 ) 。 如 某 公司 全 体 员 工 集体 做 了 一 次 IQ 测 试 〈 智 商 测试 ) ， 测 试 结 
表明 智商 在 110 附 近 的 人 最 多 ， 智 商 在 90 到 100 之 间 的 较 少 ， 同 时 智商 在 
120 到 130 之 间 的 较 少 ， 而 智商 在 80 到 90 之 间 以 及 130 到 140 之 间 的 就 更 少 














f (Ha-260 。 这 也 符合 人 们 一 般 性 的 认 知 。 
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图 4-25 ”汽车 的 价格 与 数量 关系 
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图 4-26 ”智商 与 人 数 关 系 


再 如 ， 全 社会 范围 内 的 收入 ， 中 档次 收入 的 人 比较 多 ， 特 别 贫 穷 和 
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就 不 那么 均匀 了 。 诸 如 此 类 的 例子 还 有 很 多 。 


高 斯 分 布 有 什么 用 呢 ? 


首先 刚才 次 过 ， 如 果 在 统计 过 程 中 发 现 一 个 样本 呈现 高 斯 分 布 的 特 
性 ， 只 需要 把 样本 总 数量 、h 和 表述 出 来 ， 就 已 经 能 够 形成 一 个 完整 的 
画面 感 了 。 这 对 人 们 描述 对 象 是 有 很 大 帮助 的 。 


还 有 一 个 好 处 ， 就 是 我 们 发 现 了 这 样 一 个 特性 以 后 ， 在 生产 制造 、 
商业 等 领域 会 有 很 多 对 应 性 的 用 法 能 够 减少 不 必要 的 投入 或 损失 。 





例如 ， 在 设计 一 款 服装 后 ，S/M/L/XL 这 些 号 码 怎么 设计 比较 合理 
UE? 设计 完了 制造 多 少 比较 合理 呢 ? 这 时 就 可 以 在 抽样 后 在 高 斯 分 布 曲 
线 上 找到 这 些 合适 的 点 。 既 然 J-o 和 p+o 之 间 已 经 占 68.2% 了 ， 那 么 如 果 
没有 足够 的 预算 或 者 精力 ， 可 以 只 先 尝 试 做 一 个 以 p 为 标准 的 板式 ， 针 
对 一 部 分 人 打 板 做 市 场 推 广 。 因 为 再 做 p-o 和 p+o 这 两 个 如 此 不 同 的 板 
式 ， 打 板 成 本 将 会 再 提高 2 倍 ， 但 是 增益 仅 有 不 到 50% (这 从 概率 密度 
函数 上 就 可 以 看 出 来 )》。 这 其 实 就 是 一 种 针对 市 场 迎 合 的 分 析 和 尝试 
一 一 优先 做 那些 受众 情况 最 一 般 、 人 数 最 集中 的 部 分 。 

















再 如 ， 利 第 会 听 到 “一 八 法 则 ?这 种 说 法 一 一 在 不 同 的 场景 里 这 可 能 
是 高 斯 分 布 的 一 种 形式 。 假 设 正 在 经 营 一 家 游戏 公司 ， 公 司 有 一 款 刚 起 
步 不 久 的 产品 A 游 戏 ，A 游 戏 有 1 万 用 户 ， 如 果 想 做 这 一 秋游 戏 的 用 户 拓 


展 工 作 应 该 怎么 去 考虑 呢 ? 或 许可 以 党 试 这 样 : 先 看 看 这 1 万 用 户 中 每 
个 用 户 平均 在 游戏 里 充值 花 多 少 钱 ， 做 一 个 排名 。 不 花 钱 玩 的 人 会 不 
少 ， 还 有 一 些 花 极 多 的 钱 来 玩 游戏 的 玩家 ， 中 间 的 是 中 坚 力量 一 一 用 户 
数量 大 ， 每 个 人 花费 的 额度 适中 ， 持 续 周期 较 长 ， 这 样 的 一 群 人 更 值得 
关注 。 对 于 这 些 用 户 ， 如 果 能 够 知道 他 们 加 入 游戏 的 渠道 的 分 布 比例 ， 
就 有 理由 相信 这 些 渠 道 的 特点 和 它们 覆盖 这 些 用 户 的 特点 是 有 相关 性 
的 。 例 如 ， 这 些 表 现 活跃 的 用 户 究竟 是 经 由 在 大 学 校园 里 做 宣传 活动 加 
入 的 ， 还 是 由 于 在 某 些 游戏 门户 网 站 发 的 广告 加 入 的 ， 还 是 通过 某 些 免 
费 软件 的 推广 渠道 加 入 的 。 那 么 如 果 想 扩大 这 部 分 用 户 的 数量 可 以 对 应 
地 加 大 这 部 分 渠道 的 流量 。 至 少 直 观 上 看 ， 这 比 盲 目地 进行 全 方位 立体 
交叉 的 广告 投放 效果 要 好 。 














[1] 来 源 于 百度 图 库 。 
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泊 松 (Poisson) 4) 4 æ PARER SL es BUSCO 27 fh 
由 法 国 数 学 家 西 莫 恩 : 德 尼 : 泊 松 (Simeon-Denis Poisson) (4-27!!! ) 
在 1838 年 发 表 。 泊 松 分 布 是 概率 论 中 最 重要 的 概念 之 一 。 





泊 松 分 布 的 概率 函数 如 下 : 


k 


P(X =k) A e , kK20,112,3.:- 
k! 


THE A BO ce FEES TR] (或 单位 面积 ) 内 随机 事件 的 平均 发 
生 率 。 泪 松 分 布 适合 于 描述 单位 时 间 内 随机 事件 发 生 的 次 数 。 其 中 k! 
是 指 k 的 阶乘 ， 也 就 是 kx Ck-1) x (k-2) x...x2x1，k 取 非 负 整数 。 泊 松 
分 布 概率 密度 函数 如 图 4-28 1 所 示 。 








P(X=k) 











图 4-28 ” 泊 松 分 布 概率 密度 函数 





还 是 根据 认识 高 斯 分 布 的 经 验 来 认识 一 下 泊 松 分 布 。 也 就 是 说 在 一 


个 标准 的 时 间 里 ， 发 生 这 件 事 的 发 生 率 是 人 次 《注意 ， 这 有 是 一 个 具体 的 
次 数 ， 不 是 一 个 概率 值 ) ， 那 发 生 Kk 次 的 概率 是 多 少 。 





泊 松 分 布 适用 的 事件 需要 满足 以 下 3 个 条 件 。 


C1) 这 个 事件 是 一 个 小 概率 事件 。 








(20 事件 的 每 次 发 生 是 独立 的 不 会 相互 影响 。 
(3) 事件 的 概率 是 稳定 的 。 


下 面 举 一 个 公共 汽车 到 站 的 例子 。 





假设 在 一 个 公共 汽车 站 上 有 很 多 不 同 线路 的 公交 车 ， 而 且 平 均 每 5 
分 钟 会 来 2 辆 公交 车 。 求 5 分 钟 内 来 5 辆 公交 车 的 概率 有 多 大 。 


这 里 和 为 2，k 为 5。 


PQS) x 2.718 28° ~ 0.361 
3X 


Ax3x2xl 


NER (3.61% 





还 有 一 个 比较 经 典 的 例子 : 已 知 有 一 个 书店 ， 售 卖 许 多 图 书 ， 其 中 
工具 书 销售 一 直 较 为 稳定 而 且 数 量 较 少 (概率 较 小 的 事件 ) ， 新 华 字典 
平均 每 周 卖 出 4 套 。 作 为 书店 老板 ， 新 华 字 上 典 应 该 备 多 少 本 为 宜 ? 











所 有 生产 中 解决 的 都 是 “为 宜 ” 的 问题 ， 也 就 是 做 投入 产 出 的 权衡 。 
本 例 中 ， 在 没有 做 计算 之 前 我 们 先 想 一 下 ， 如 果 备货 过 少 ， 那 么 每 周 很 
可 能 都 会 有 用 户 “ 流 失 ” 挥 去 买 别 的 书店 的 新 华 字 典 或 者 由 于 无 法 满足 客 
户 的 购书 需求 而 引起 客户 的 忠诚 度 下 降 等 问题 ， 而 如 果 备 货 过 多 ， 那 么 
就 会 占用 大 量 的 库存 空间 导致 库存 成 本 过 高 。 

















这 是 一 个 典型 的 泊 松 分 布 问题 ， 因 为 在 条 件 叙 述 里 它 是 满足 这 三 个 
前 置 条 件 的 。 这 里 和 是 4， 求 k 是 多 少 “为 宜 ”。 











这 里 需要 用 到 “累积 概率 ”， 其 实 * 累 积 概率 ”的 用 法 在 前 面 高 斯 分 布 
的 研究 中 已 经 用 过 了 ， 就 是 指 自 变 量 取 值 在 一 个 区 间 内 的 所 有 概率 的 加 
和 ， 在 高 斯 分 布 的 例子 里 从 ha 到 h+a 之 间 的 自 变量 取 值 会 涵盖 68.2% 的 
样本 空间 ， 这 就 是 “累积 概率 ”"” 即 有 68.2% 的 样本 都 存在 于 x 的 p-o 到 p+o 
的 区 间 内 。 




















在 这 个 例子 里 ， 也 求 一 下 味 积 概率 。 由 于 是 离散 概率 函数 ， 可 以 移 
求 出 k 所 对 应 的 各 个 概率 的 大 小 ， 再 计算 累积 概率 的 大 小 。 


P(X-k-1)- 4! + (1) + 2.71828*=7.33% 
P(X=k=2)= 4 + (2 X 1) + 2.71828'-14.796 
P(X=k=3)= 4? + (3 X 2 X 1) = 2.71828'-19.596 


P(X=k=4)= — Ü  x2718 28 * ~ 19.5% 

Ax3x2xl 
P(X=k=5)= 4? + (5X4X3X2X 1) * 2.71828'-15.696 
P(X=k=6)= 4°+ (6X 5X4X3X2X 1) * 2.71828'-10.496 
P(X=k=7)= 4' - (LX 6X 5X4X3X2X1)- 2.71828 5.9594 
P(X-k-8)- 4* - (8X 7X 6X 5XA4X3X2X 1) * 2.71828'-2.9896 


P(X-k-9)- 4? - (0X 8X 7X 6X5X4X3X2X 1) * 2.71828'-1.3296 


对 应 的 表格 如 表 4-1 所 示 。 


表 4-1 不 同 k 值 对 应 的 累积 概率 











K 值 累积 概率 
1 87.0396 
2 92.9896 
3 95.96% 
4 97.28% 
5 

















对 应 的 概率 图 如 图 4-29 所 示 。 


表 4-1 表 示 k 的 取 值 ， 即 每 周 备货 多 少 本 新 华 字 典 ， 以 及 销售 周 有 多 
大 概率 会 有 k 本 的 销售 数量 。 最 后 一 列 的 累积 概率 指 的 是 备货 为 k 本 的 情 
况 下 ， 会 有 多 少 个 销售 周 的 销售 数量 小 于 等 于 备货 数量 。 这 里 只 算 到 
k=9 的 情况 ， 其 他 情况 读者 有 兴趣 可 以 自己 再 算 。 图 4-9 所 示 的 概率 图 





中 ， 横 轴 为 次 数 k， 纵 轴 为 概率 %。 因 为 k 是 离散 值 所 以 画 成 离散 的 点 即 
可 ， 在 有 的 资料 上 会 用 曲线 把 每 个 点 顺序 连接 起 来 ， 这 种 画 法 也 没有 问 
题 ， 只 要 读者 知道 k 的 取 值 为 正 整数 即 可 。 








具体 看 k=5， 新 华 字典 备货 为 5 件 的 情况 下 ， 大 概 有 76.63% 的 销售 周 
不 会 有 供不应求 的 情况 ， 这 些 销售 周 内 会 有 7.33% 的 销售 周 卖 出 1 本 ， 
14.7% 的 销售 周 卖 出 2 本 ，19.5% 的 销售 周 卖 出 3 本 ，19.5% 销 售 周 卖 出 4 
本 ，15.6% 销 售 周 卖 出 5 本 ， 总 之 不 会 超过 5 本 ， 也 就 是 一 年 的 52 周 里 有 
40 周 可 以 满足 消费 者 需求 ， 还 有 12 周 会 脱销 。 
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图 4-29 ”对 应 的 概率 周 


当选 择 k=7 时 ， 新 华 字 典 备货 为 7 件 的 情况 下 ， 大 概 有 92.98% 的 销售 
周 不 会 有 供不应求 的 情况 ， 也 融 是 一 年 的 52 周 里 有 48 周 可 以 满足 消费 者 
需求 ， 还 有 4 周 会 脱销 。 


在 泊 松 分 布 的 例子 里 ， 可 以 看 到 一 个 现象 ， 就 是 k 每 增加 1， 在 k 小 
于 入 的 时 候 ， 累 积 函 数 增加 是 很 快 的 ， 而 且 每 次 增加 的 量 比 上 一 次 增加 
的 要 多 ; 而 在 k 越 过 和 之 后 ， 虽 然 开 始 还 在 增加 ， 但 是 每 次 增加 的 量 比 上 
一 次 增加 的 要 少 ， 然 后 越 来 越 少 。 所 以 这 个 技巧 在 解决 类 似 的 问题 时 请 
根据 实际 情况 其 酌 采 纳 。 





[1] 图 片 来 源 于 百度 图 库 。 
[2] 图 片 来 源 于 维基 百科 。 


4.10” 伯 努 利 分 布 





伯 努 利 分 布 (Bernoulli Distribution〉 是 一 种 离散 分 布 ， 在 概率 学 中 
非常 常用 ， 有 两 种 可 能 的 结果 ，1 表 示 成 功 ， 出 现 的 概率 为 p (其 中 
O<p<1) ; 0 表示 失败 ， 出 现 的 概率 为 q=1-p。 这 很 好 理解 ， 除 去 成 功 都 
是 失败 ，p 是 成 功 的 概率 ， 概 率 100% 减 去 p 就 是 失败 的 概率 。 





图 4-30 FER AS Al 





伯 努 利 分 布 是 为 纪念 瑞士 科学 家 雅 各 布 : 伯 努 利 Jakob Bernoulli) 
CFd4-30 1) 而 命名 的 。 这 里 值得 一 提 的 是 伯 努 利家 族 。 瑞 士 的 伯 努 利 
家 族 《〈 也 译作 贝 努 力 ) 是 一 个 很 伟大 的 家 族 ， 一 个 家 族 3 代 人 中 产生 了 8 
位 科学 家 ， 后 裔 有 不 少 于 120 位 被 人 们 系统 地 退 调 过 ， 他 们 在 数学 、 目 








然 科 学 、 技 术 、 工 程 乃至 法 律 、 管 理 、 文 学 、 艺 术 等 方面 享有 名 望 ， 有 
的 甚至 声名 显赫 。 


伯 努 利 分 布 的 分 布 律 如 下 : 
p n- 1| 
PU, n =] 
看 上 去 像 个 分 段 函数 是 不 是 ， 它 也 可 以 写作 
P(n) = p'(1- p) 


这 两 个 写法 其 实说 的 是 一 回 事 ， 你 自己 可 以 把 n=0 和 n=1 分 别 带 进去 
算 一 算 。 





伯 努 利 分 布 的 应 用 需 满足 以 下 条 件 。 


CD 各 次 试验 中 的 事件 是 互相 独立 的 ， 每 一 次 n=1 和 n=0 的 概率 分 
别 为 p 和 q。 


(2) 每 次 试验 都 只 有 两 种 结果 ， 即 n=0， 或 n=1。 





如 末 不 满足 这 两 个 条 件 ， 则 分 布 不 是 伯 努 利 分 布 。 
满足 但 努 利 分 布 的 样本 有 一 个 非常 重要 的 性 质 ， 即 满足 下 面 公 式 : 


P(X =k) =C p Apy” 


我 们 解释 一 下 这 个 公式 的 含义 。 


n! 


Heb, KERERE CHM AERA OS, te Co 71) 
p-p) | Pipin (1-p) Mn-kVUR DOSE f 


这 个 公式 表示 ， 如 果 一 个 试验 满足 PUD) - p'0- p)" 的 伯 努 利 分 布 ， 
那么 在 连续 试验 n 次 的 情况 下 ， 出 现 n=1 的 情况 发 生 恰好 k 次 的 概率 为 
C Pd- 。n=1 就 是 对 应 概率 为 p 的 情况 。 





下 面 用 一 个 小 例子 来 说 明 。 





例如 ， 张 三 参加 英语 雅思 考试 ， 每 次 考试 通过 的 概率 为 3， 不 通 
过 的 概率 为 223。 如 果 他 连续 考试 4 次 ， 那 么 恰好 通过 2 次 的 概率 为 多 


D>? 


IS 


在 这 个 例子 里 可 以 比较 容易 看 到 ，P=1/3，n=4，k=2。 代 入 公式 : 


C? x| a) fi- Fi BD 
3 zx] 9 89 27 


因此 概率 为 8/27。 











这 个 例子 也 可 以 用 排列 组 合 来 计算 。 一 共 4 次 考试 ，2 次 通过 ， 一共 
有 6 种 情况 ， 如 表 4-2 所 示 。 

















试 着 求 每 次 的 概率 ， 情 况 1， 即 第 1 次 通过 且 第 2 次 通过 且 第 3 次 不 通 





过 且 第 4 次 不 通过 。 这 里 干 万 不 要 漏 挥 后 面 两 个 条 件 ， 后 面 两 次 必须 是 
不 通过 ， 人 否则 条 件 就 和 公式 不 匹配 了 。 


那么 ， 第 1 次 通过 ， 概 率 为 13， 第 2 次 通过 ， 概 率 为 3， 第 3 次 不 通 
过 ， 概 率 为 203， 第 4 次 不 通过 ， 概 率 为 203。 这 4 个 条 件 都 发 生 的 概率 为 


同 理 ， 情 况 2 到 情况 6 的 概率 都 是 4/81。 所 以 最 后 的 结果 是 


结果 是 完全 一 样 的 。 


对 于 满足 但 努 利 分 布 的 试验 来 说 ， 用 古典 概 型 进行 计算 显得 复 林 和 
繁琐 ， 尤 其 是 n 和 k 比 较 大 的 时 候 用 古典 概 型 来 做 吏 太 不 方便 了 。 





伯 努 利 分 布 的 应 用 场景 其 实 远 比 这 个 例子 丰富 ， 读 者 有 兴趣 可 以 再 
继续 寻找 其 他 题目 试 解 。 


[1] 图 片 来 自 维基 百科 。 
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在 前 4 章 里 学 习 了 一 些 统计 和 概率 的 基本 知识 ， 如 建立 指标， 是 使 
用 加 和 值 ， 还 是 使 用 加 权 平 均值 ， 在 制作 报表 的 时 候 是 否 应 该 适当 使 用 
标的 同比 、 环 比 进行 对 比 ， 是 人 否 应 该 适时 地 使 用 抽样 来 进行 用 户 调 
研 ， 是 否 可 以 在 报表 中 加 入 一 些 分 布 图 来 让 阅读 者 有 更 直观 性 的 认识 ， 
是 否 能 用 排列 组 合 的 方式 算出 一 些 事件 在 生产 中 发 生 的 概率 .….…… 














统计 和 分 布 这 个 部 分 是 统计 和 概率 学 的 基础 部 分 ， 这 些 知 识 能 用 来 
解 哪些 题 ? 能 够 用 在 什么 场合 ? 





要 回答 这 些 问 题 需要 先 理解 统计 和 分 布 本 吴 的 意义 ， 它 们 是 为 描述 
大 量 样 本 的 宏观 样 态 而 出 现 的 ， 完 其 根本 也 是 描述 为 目的 ， 它 不 是 算 








法 ， 所 以 通常 无 法 直接 拿 来 解 题 ， 但 是 它 能 用 最 简洁 的 方式 给 我 们 带 来 
大 量 样 本 宏观 样 态 下 的 画面 感 ， 更 为 直观 。 人 至 于 使 用 的 场合 ， 如 果 摘 述 
的 对 象 是 大 量 的 样本 ， 那 么 就 用 简洁 的 方式 描述 它 的 宏观 状态 的 ， 即 使 
用 统计 和 分 布 中 的 描述 方法 。 分 布 可 以 用 来 建 模 ， 也 可 以 用 来 解决 生产 
生活 中 的 问题 ， 上 述 例子 就 是 很 好 的 样本 ， 读 者 可 以 试 着 再 去 找 一 些 案 
例 ， 只 要 满足 分 布 的 前 置 条 件 都 是 可 以 套用 分 布 的 结论 和 推广 使 用 的 。 


第 5 章 ”指标 


5.1 什么 是 指标 





指标 ， 顾 名 思 义 ， 就 是 指定 的 标准 。 词 典 里 的 解释 是 “衡量 目标 的 
单位 或 方法 "”。 指 标 就 是 为 了 描述 一 些 对 象 的 状态 而 制定 出 来 的 标准 ， 
在 日 常生 产生 活 中 有 着 非常 广泛 的 应 用 。 





如 果 你 参加 工作 已 经 有 一 段 时 间 了 ， 那 么 对 于 指标 可 能 不 会 太 陌 
生 ， 甚 至 在 上 学 的 时 候 我 们 里 边 同 样 有 过 各 种 指标 。 








我 们 上 学 的 时 候 ， 每 门 功课 的 期 末 考 试 分 数 为 百分制 ， 即 90 分 为 优 
秀 ，60 分 为 及 格 ， 不 及 格 就 留级 。 这 就 是 一 套 简 单 但 是 完整 的 指标 体系 
(图 5-1) 。 其 中 ,“ 指 标 ” 就 是 期 末 考 试 分 数 ,，“ 百 分 制 * 就 是 指标 的 取 值 
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看 似 简单 的 一 个 指标 定义 却 完成 了 一 个 完整 的 指标 检验 闭环 。 在 这 
个 财 环 里 ， 学 生 就 是 指标 负担 的 主体 ， 学 生 为 了 达到 指标 而 学 习 ， 学 习 
的 情况 用 指标 量化 表示 ， 最 后 根据 量化 的 指标 进行 奖惩 。 有 了 这 个 指标 
体系 ， 学 校 的 名 声 、 教 师 的 水 平 高 低 、 学 生成 绩 水 平 的 优 务 都 有 了 量化 
的 准绳 ; 这 为 由 此 产生 的 一 系列 “运营 * 带 来 了 驱动 能 里 然 我 们 一 














直 非 常 不 情愿 把 教育 体系 当 作 运营 的 对 象 ， 但 我 们 却 不 得 不 把 教育 体系 
的 学 校 作 为 运营 的 对 象 。 


学 生成 绩 有 了 高 低 ， 就 能 有 不 同 的 晋升 途径 ， 教 师 的 水 平 有 了 高 
低 ， 束 能 有 评级 评奖 ， 薪 金 浮动 ， 学 校 的 名 声 有 了 体现 ， 就 能 有 口碑 和 
好 坏 的 状 别 ， 吸 引 师 资 和 学 生 的 关 别 以 及 赞助 费 的 差别 。 这 些 是 我 们 在 
设置 考试 的 时 候 就 精心 设计 出 来 的 吗 ? 未 必 ， 这 是 由 考试 这 个 指标 体系 
自然 而 然 衍 生出 来 的 一 系列 游戏 规则 。 












听 说 这 次 学 校服 有 
ASKER .... 





图 5-1 学 生成 绩 指 标 体系 





再 如 企业 里 有 不 同 的 岗位 ， 其 中 销售 网 位 是 最 容易 被 赋予 指标 的 ， 
如 “月 销售 人 额 "、“ 年 回 球 率 * 等 。 其 中 “月 销售 额 * 对 于 一 个 销售 人 员 来 说 
是 最 容易 让 人 想到 的 一 种 指标 。 一 个 销售 人 员 是 不 是 “优秀 ”， 是 不 
是 “有 能 力 ”、“ 有 价值 "”， 最 简单 的 就 是 用 卖 了 多 少 价值 的 产品 来 衡量 。 
而 “年 回 球 率 ” 指 标 是 在 “月 销售 额 * 指 标 运 作 的 前 提 下 才 会 有 的 ， 指 每 年 
的 销售 额 究 竟 有 多 少 是 真正 可 以 兑现 的 。 因 为 在 很 多 企业 里 ， 产 品 销售 
有 一 些 特殊 的 规则 ， 如 客户 先 拿 货 后 付款 ， 先 签 框架 合同 后 交易 。 所 
以 “月 销售 额 ” 有 可 能 会 由 于 具体 生产 细节 上 操作 的 问题 使 得 这 个 孤立 指 
标的 意义 不 够 丰满 ， 还 需要 其 他 指标 来 补充 。 毕 竞 ， 找 个 光 拿 货 不 给 钱 
的 和 客户， 销售 额 再 多 也 不 算 销 售 人 员 有 能 耐 。 企 业 里 的 指标 运营 类 别 比 
学 校 丰 富 得 多 ， 有 了 这 些 指 标 ， 企 业内 部 可 以 进行 人 员 的 左 迁 和 右 迁 ， 
刺激 企业 良性 发 展 ， 这 已 经 在 很 多 优秀 的 企业 中 得 到 验证 。 























再 如 体检 时 的 化 验 项 目 ， 如 眼睛 近视 度数 、 喘 高 、 体 重 、 心 跳 、 血 
压 、 血 糖 浓 度 、 血 小 板 浓度 .…… 以 及 尿酸 浓度 、 各 种 转 损 酶 浓度 等 专业 
的 指标 。 小 小 一 张 化 验 单据 ， 多 则 百 余 项 ， 少 的 只 有 一 二 十 项 ， 已 经 把 
人 的 喘 体 状 况 摘 述 得 即 简洁 又 具 体 ， 这 就 是 指标 的 力量 。 


如 果 没 有 指标 我 们 的 体检 应 该 怎么 做 呢 ? 那 体检 报告 可 能 要 写成 长 
篇 的 文章 来 描述 了 ， 血 液 比 较 粘 稠 ， 像 什么 一 样 粘 稠 ， 粘 笛 到 什么 程 
度 ， 肝 部 也 许 有 轻微 炎症 ， 炎 症 严 重 或 者 不 太 严 重 ， 心 跳 听 起 来 跳 得 比 
较 快 .…... 这 样 的 报告 不 只 是 参与 体检 的 人 看 不 懂 ， 售 计 医 生 看 了 也 不 知 








道 完 竟 是 多 粘 稠 ， 炎 症 多 轻微 或 多 严重 ， 心 跳 得 有 多 快 。 更 关键 的 是 ， 
下 一 次 体检 描述 完了 还 是 这 样 一 堆 文 字 ， 那 束 更 没有 办 法 做 每 次 体检 之 
间 的 比较 了 ， 谁 知道 这 次 “心跳 听 起 来 跳 得 比较 快 ? 和 上 次 的 “心跳 听 起 
来 跳 得 比较 快 ?哪个 更 快 一 些 ， 是 更 快 了 还 是 更 慢 了 《图 5-2) o MRE 
针对 不 同 喜 官 的 指标 分 类 都 不 存在 ， 那 体检 就 显得 更 滑 稿 ， 甚 全 检查 了 
半天 结果 只 能 说 “看 上 去 很 健康 ”看 上 去 好 像 不 太 健 康 ”， 这 哪里 叫 体 
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图 5-2 ”没有 指标 的 体检 报告 


指标 给 我 们 带 来 的 便利 是 非常 明显 的 ， 这 也 就 是 在 各 行 各 业 广 泛 使 
用 指标 的 重要 原因 。 


在 指标 建立 的 过 程 中 ， 我 们 实际 做 的 是 一 个 建 模 的 过 程 ， 围 绕 建 模 
要 做 很 多 辅助 工作 。 


在 综合 类 或 者 理工 类 大 学 会 有 一 门 选修 诬 叫 作 “ 数 学 建 模 ”"， 我 们 在 
书店 里 也 能 找到 关于 数学 建 模 的 书籍 。 这 里 的 建 模 和 数学 建 模 的 意思 相 
近 ， 人 至 少 目 的 是 相近 的 。 我 们 要 做 的 建 模 工作 实际 上 古 抽象 在 生产 生活 
中 的 各 种 数字 ， 并 尝试 建 并 数字 和 数字 之 间 的 逻辑 关系 假说 ， 并 通过 分 
析 手 段 来 进行 逻辑 关系 的 调整 ， 最 终 让 建立 的 这 种 逻辑 关系 和 客观 事实 
一 致 。 这 个 馆 辑 关系 可 能 就 是 这 些 数字 之 间 的 加 减 乘除 或 肾 指 对 函数 


^ 
等 。 











使 用 数学 建 模 的 手段 来 建立 数据 之 间 逻 辑 关 系 的 例子 有 很 多 ， 生 物 
学 家 可 能 会 观测 一 个 地 区 的 温度 、 湿 度 以 及 当地 某 种 微生物 种 群 数量 ， 
进而 得 到 一 个 3 种 变量 之 间 的 逻辑 关系 ;社会 学 家 可 能 会 通过 观察 一 个 
地 区 的 收入 水 平平 均值 、 标 准 差 和 犯罪 率 来 做 一 个 模型 摘 述 ， 摘 述 犯 罪 
率 可 能 由 收入 水 平平 均值 和 标准 差 这 两 个 值 的 一 些 运算 逻辑 来 表述 。 





我 们 平时 在 生产 生活 中 所 做 的 各 种 数值 的 统计 工作 ， 并 把 它们 定义 
成 指标 ， 再 用 这 些 指标 的 运算 组 合 来 定义 新 的 指标 ， 这 个 过 程 束 是 一 个 





建 模 的 过 程 。 这 个 模型 是 直接 对 生产 中 的 各 种 指标 数据 进行 逻辑 解释 

的 。 例 如 ， 在 制作 互联 网 广告 系统 时 ， 在 网 页 上 推送 一 个 广告 ， 做 一 个 
计数 指标 “推送 数 ”"， 再 做 一 个 实际 进行 广告 点 击 的 计数 指标 “点 击 数 ”， 

定义 如 下 : 





转化 率 = 推 送 数 :点击 数 


在 经 过 一 段 时 间 的 统计 后 ， 可 以 发 现 转化 率 很 可 能 是 一 个 定 值 或 者 
征 围 经 某 h 值 的 正 态 分 布 。 那 么 再 进行 广告 投放 时 ， 惑 能 够 根据 预期 的 
推送 数 来 做 对 应 的 点击 数 的 预 判 ， 进 而 估算 出 收入 大 小 ， 那 么 广告 定价 
或 者 投放 集 略 调整 也 部 有 了 参考 。 





5.2 ”指标 化 运营 


在 现代 化 的 公司 里 ， 指 标 化 运营 是 必 不 可 少 的 手段 。 








指标 化 运营 会 让 公司 的 每 个 人 ， 不 只 是 领导 层 ， 其 至 是 各 个 岗位 的 
各 个 工作 人 员 都 清晰 地 知道 公司 当前 所 处 的 状况 以 及 目 己 当前 的 表现 情 
况 。 就 像 日 第 化 的 体检 ， 或 者 汽车 的 仪表 盘 那 样 一 目 了 然 。 








公司 指标 化 运营 的 好 处 显而易见 ， 对 于 老牌 公司 来 说 ， 已 经 形成 了 
比较 完备 的 指标 体系 ， 可 能 并 不 会 困惑 ， 但 是 对 于 刚 成 立 的 新 公司 、 新 
部 门 、 新 项 目 来 说 ， 应 当 怎 样 选择 合适 的 运营 指标 呢 ? 我 们 不 妨 从 众多 
优秀 的 指标 中 寻找 一 下 这 些 指标 的 共性 。 


5.2.1 指标 的 选择 





我 们 先 来 看 看 在 互联 网 行业 都 有 哪些 常用 的 指标 。 


PV (Page Views) : 页 面 浏览 数 ， 通 常 指 的 是 每 天 的 点 击 数 ， 用 
户 访问 一 次 网 站 的 页 面 就 算 一 次 PV。 如 果 说 一 个 网 站 每 天 有 100 万 PV， 
那 就 是 说 这 个 网 站 所 有 的 网 页 每 天 一 共 被 点 击 100 万 次 。 





UV (Unique Visitors) : 独立 用 户 数 (浏览 数 ) ， 通 常 指 的 是 每 天 
的 用 户 浏览 数 ， 与 PV 的 不 同 之 处 是 ， 一 个 相同 的 用 户 如 果 点 击 页 面 10 
次 ， 算 10 个 PV， 但 是 只 算 1 个 UV。 有 的 网 站 在 没有 用 户 体系 的 情况 下 
有 可 能 会 用 独立 IP 来 代替 这 个 指标 。 


DAU (Daily Activated Users) : 日 活跃 用 户 数 ， 即 每 天 活跃 的 用 
户 数 量 。 假 设 一 个 网 站 的 注册 用 户 有 100 万 ， 但 是 一 般 不 会 100 万 人 每 天 
全 数 登 录 ， 可 能 只 有 5 万 人 登录 ， 那 么 这 5 万 人 就 是 活跃 用 户 数 。 活 跃 用 
户 的 定义 在 不 同 网 站 可 能 是 不 同 的 ， 只 是 一 般 习惯 上 说 当天 登录 过 至 少 
一 次 的 用 户 就 算是 活跃 用 户 。 














MAU (Monthly Activated Users) : 月 活跃 用 户 数 ， 每 月 活跃 的 用 
户 数 量 。 算 法 与 DAU 类 似 ， 但 是 统计 周期 是 一 个 月 。 


LTV (Life-Time Value) : 用 户 生命 周期 价值 ， 这 个 指标 在 游戏 行 





业 里 用 得 比较 多 ， 指 的 是 在 一 个 用 户 “ 生 命 周 期 "一 一 从 开始 玩 这 个 游 
戏 ， 到 最 终 抛 弃 这 个 游戏 为 止 ， 一 共 会 为 这 个 游戏 付费 多 少 钱 。 


ARPU (Average Revenue per User) : 每 用 户 平均 收入 。 这 个 指标 
并 不 是 用 来 评价 用 户 收 入 水 平 ， 而 是 站 在 互联 网 产品 的 角度 ， 了 解 每 年 
E-E) 平均 从 每 个 用 户 身 上 可 以 收入 多 少 钱 。 这 个 指标 在 互联 网 产 
品 、 电 信和 运营 产品 、 游 戏 产品 等 很 多 领域 都 会 用 到 ， 是 一 个 很 常用 的 指 





些 指标 的 共性 如 下 。 


1. 数 字 化 








首先 ， 这 个 指标 的 设立 一 定 是 数字 化 的 ， 不 论 古 整数 还 是 小 数 ， 因 
为 只 有 数字 化 才能 够 比较 ， 数 字 化 之 后 才能 参与 各 种 运算 。 想 想 刚 刚 我 
们 在 体检 的 例子 里 说 的 那些 奇怪 的 情况 就 知道 数字 化 有 多 么 重要 了 。 








2. 易 衡量 








指标 所 衡量 的 对 象 一 定 是 相对 比较 容易 衡量 出 来 的 。 上 述 指标 都 具 
有 这 个 特性 ， 如 PV 数 ， 在 访问 日 志 里 用 以 下 语句 描述 : 


SELECT COUNT ( 


*5 


FROM 
VIEW LOGS 
WHERE VISIT TIME BETWEEN '2016-01-05 00. 


00: 


00' AND '2016-01-05 23. 


59. 


59'; 





可 以 获得 2016 年 1 月 5 日 这 一 天 的 PV 数 。 或 者 在 Linux 系 统 里 用 Shell 
命令 切割 日 志 后 ， 用 wc-] 命 令 也 可 以 得 到 PV 数 ， 非 常 方便 。 


UV 实际 是 对 PV 的 用 户 维度 的 去 重 ，ARPU 值 是 一 个 “收入 总 数 /用 己 
数 ” 的 丙 。 


这 些 都 是 一 些 用 相对 简单 的 统计 手段 衡量 而 比较 容易 得 到 的 值 。 





指标 的 获取 成 本 要 低 ， 无 论 是 人 力 成 本 还 是 时 间 成 本 ， 毕 竟 作 为 工 
具 来 说 花费 过 多 的 成 本 ， 甚 至 成 本 高 于 收 荔 古 不 划算 的 。 





3. 意 义 清晰 





意义 清晰 是 非常 值得 注意 的 一 点 。 





首先 设立 的 指标 的 定义 是 不 容易 产生 二 义 性 的 ， 不 会 令 人 对 指标 本 
身 的 含义 产生 多 种 不 同 的 理解 。 


例如 ，UV 指 的 是 在 一 个 周期 里 有 多 少 不 同 的 用 户 来 访 。 在 一 个 网 
站 用 户 系统 里 ， 不 同 的 用 户 束 是 以 不 同 用 户 登 录 名 来 定义 的 ， 一 个 页 面 
访问 束 是 一 个 访问 。 这 个 定义 在 说 明 一 次 以 后 会 很 容易 被 大 家 记 住 。 





此 外 ，UV 上 涨 和 UV 下 降 ， 对 业务 也 有 清晰 的 解释 。 如 一 个 网 站 的 
UV 持续 上 涨 ， 那 就 说 明 注 册 用 户 的 访问 量 在 增加 ， 上 反之 在 减少 。 


再 如 ARPU 指 标 ，ARPU 值 在 上 涨 ， 说 明 平 均 从 每 个 用 户 身 上 赚 到 
的 钱 在 增加 ， 运 营 健康 程度 应 该 说 也 是 在 增加 的 。ARPU 值 下 降 ， 说 明 
平均 从 每 个 用 户 身 上 赚 到 的 钱 在 减少 ， 至 少 从 宏观 上 来 看 ， 每 个 人 愿意 
为 产品 买单 的 热情 越 来 越 低 ， 产 品 运营 是 不 健康 的 。 


除了 指标 本 身 解 释 的 意义 清晰 以 外 ， 这 些 指标 基本 也 是 可 以 通过 改 
变 运 营 策 略 在 短 时 间 内 立竿见影 看 到 反馈 效果 的 。 请 注意 ， 这 一 氮 也 非 
常 重要 。 因 为 公司 运营 的 视角 和 其 他 很 多 带 有 “创新 ”元 素 的 产业 一 样 ， 
规律 和 经 验 只 能 解决 一 部 分 问题 ， 很 多 运营 手段 ， 包 括 公 司 活动 、 发 布 
新 版 本 、 新 广告 上 线 、 公 司 在 媒体 方面 的 新 消 妃 等 ， 都 是 带 有 比较 多 的 
试探 性 意味 的 。 换 句 话 说 ， 在 做 这 些 事情 之 前 ， 只 是 对 这 件 事 会 产生 好 
的 结果 有 期 许 ， 但 是 不 能 也 无 法 决定 这 件 事 的 结果 是 好 是 坏 ， 程 度 如 何 
也 未 可 知 。 所 以 一 旦 有 了 指标 ， 束 会 关注 在 一 件 事情 以 后 指标 上 的 肥 
馈 ， 有 了 对 指标 的 解读， 就 有 了 衡量 和 比较 的 标准 ， 它 能 够 让 我 们 比较 
方便 地 对 经 营 中 的 试探 做 出 适当 的 评价 。 




















例如 ， 在 制作 一 个 游戏 的 过 程 中 ， 上 线 了 一 个 新 版 本 ， 第 二 天 发 现 
DAU (日 活路 用户》 下 降 了 20%， 那 么 我 们 就 很 容易 推断 是 新 版 本 的 友 
布 导 致 DAU 值 的 下 降 。 这 时 ， 我 们 要 及 时 进行 原因 的 排 得 ， 知 确实 是 新 
版 本 的 市 场 影响 不 好 ， 那 么 一 定 要 及 时 做 版 本 回 深 ， 亡 诗 补 牢 总 比 在 月 
度 结束 的 时 候 看 收入 报表 减少 了 再来 找 原因 要 迅速 得 多 。 


4. 周 期 适当 





指标 的 周期 设置 要 适当 ， 这 也 是 非常 重要 的 一 点 。 





上 述 例子 里 ，PV 的 周期 通常 取 一 天 。 一 天 的 长 度 是 比较 合适 的 ， 

如 果 太 短 ， 每 小 时 计算 一 次 PV，PV 本 身 会 由 于 很 多 随机 事件 而 变 得 波 
动 剧 烈 ， 而 指标 对 趋势 性 变化 的 解读 通常 更 为 有 效 ， 尝 试 对 指标 波动 的 
解释 通常 都 很 让 人 困扰 。 网 站 今天 9 点 到 10 点 间 的 PV 数 比 7 天 前 9 点 到 10 
点 〈 周 同比 ) 的 PV 数 多 20%， 请 问 这 是 由 于 公司 的 恨 好 经 营 策略 增加 了 
20% 的 用 户 吗 ? 这 个 推论 无 法 成 立 。 这 个 波动 可 能 仅仅 是 由 某 一 次 宣传 
上 的 转发 动作 而 发 生 的 瞬时 性 的 访问 激增 ， 最 终 一 天 的 PV 算 下 来 可 能 
只 在 周 同比 上 有 1% 的 提高 ， 这 什么 都 说 明 不 了 。 








周期 设置 长 一 些 会 怎么 样 ? 反馈 迟钝 。 如 采用 周作 为 单位 来 统计 
PV， 那 么 如 果 要 看 经 营 集 略 效果 ， 则 至 少 要 到 一 周 以 后 才能 看 到 结 
果 ， 而 且 结 果 还 混杂 在 整整 一 周 的 PV 合 计 里 ， 难 以 区 分 策略 贡献 的 真 
实 大 小 。 


除了 周期 不 当 会 产生 的 指标 波动 难以 解读 和 反馈 迟钝 两 种 问题 以 
外 ， 周 期 不 当 本 刁 可 能 都 让 指标 的 侦 测 行为 没有 现实 意义 。 


如 上 述 体 检 的 例子 ， 半 年 一 次 体检 ， 一 年 一 次 体检 ， 这 些 周期 是 较 
为 合适 的 。 周 期 过 短 ， 如 一 天 体检 一 次 ， 即 便 体检 都 是 在 早上 空腹 后 ， 
有 极 大 的 准确 性 ， 也 确实 能 反映 每 一 天 身体 各 需 官 各 指标 的 真实 情况 ， 
但 是 存在 以 下 问题 。 





问题 1: 体检 会 花费 大 量 的 时 间 和 人 金钱。 一 次 体检 的 时 间 和 金钱 的 
成 本 平 摊 在 一 年 中 几乎 可 以 忽略 不 计 ， 但 是 每 一 天 都 有 体检 开销 则 太 为 
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问题 2 即便 体检 是 公家 报销 ， 时 间 也 充裕 。 但 是 如 此 频繁 和 短 周 
期 的 体检 结果 对 于 行为 有 什么 指导 价值 ? 对 于 很 多 疾病 来 说 ， 治 疗 周期 
都 是 几 个 月 其 至 半年 、 一 年 ， 如 此 频繁 的 体检 对 于 观察 治疗 效果 显然 古 
没有 必要 ， 因 为 这 并 不 比 半年 检查 一 次 有 更 多 效益 。 平 白地 提高 成 本 而 
没有 可 预期 的 收益 ， 这 种 成 本 花费 的 意义 是 值得 质疑 的 。 














5. 尺 量 客观 





指标 选择 的 最 后 一 个 标准 是 尽量 客观 。 





说 实话 ， 这 一 扣 的 难度 其 实 并 不 低 。 人 本 喘 就 是 一 种 靠 器 官 感知 世 
界 的 动物 ， 既 然 是 感知 本 里 束 带 有 主观 性 ， 如 何 做 到 完全 客观 呢 ? 


有 一 些 指标 是 相对 容易 由 客观 的 统计 结果 得 到 的 数字 ， 如 PV、 
UV， 以 及 上 述 所 有 指标 都 是 由 记录 结果 统计 而 来 的 比较 客观 的 指标 ， 
因为 它们 受到 观察 者 的 意愿 性 影响 较 小 。 





有 没有 主观 性 较 强 的 指标 呢 ? 有 的 。 如 在 一 些 企业 的 一 些 部 门 考核 
中 的 各 人 人 打分， 这些 评 分 的 客观 性 就 不 如 由 非 感性 的 数字 统计 而 来 的 结 
果 客 观 性 好 。 例 如 ， 部 门 员工 评价 中 会 看 到 类 似 表 5-1 所 示 的 评价 标 
准 。 





表 5-1 部 门 员工 评价 标准 


评价 标准 评分 (1 一 5) 
态度 : PASC. FEST TERS 4 
能 力 : 能 力 突 出 ,作用 显著 3 
£3. 不 迟到 ， 不 早退 5 
ALS KE: 知识 面 丰 富 3 
互助 : 热情 带 助 其 他 同事 4 
总 分 19 


表面 上 看 ， 这 样 的 评分 标准 也 是 使 用 了 数字 化 的 手段 ， 衡 量 标 准 
(印象 几乎 是 装 在 脑子 里 瞬间 束 能 有 ， 意 义 也 做 了 解释 ， 周 期 也 可 以 
调整 为 半年 或 者 一 年 。 但 是 这 样 的 方式 很 可 能 经 不 住 推 设 ， 因 为 这 个 评 
价 实际 上 完全 依赖 一 种 模糊 的 印象 ， 是 一 个 没有 标准 的 标准 。 所 以 这 种 
评分 的 局 低 会 因为 打分 人 的 不 同 而 产生 巨大 的 波动 ， 他 心情 好 与 不 好 ， 





他 对 别人 的 要 求 严格 与 不 严格 ， 他 是 否认 真 对 竺 这 次 打分 ， 他 是 否 有 其 
他 因素 的 个 人 成 见 渗透 其 中 ， 这 些 都 令 人 对 这 种 评分 体系 的 公平 性 有 很 
大 的 担忧 。 








事实 上 ， 在 日 常生 产生 活 中 ， 确 实 有 很 多 评分 是 极 难 避 开 人 类 主观 
判断 的 ， 特 别 在 一 些 无 法 做 到 数字 化 评判 的 场景 里 ， 例 如 ， 奥 运 会 里 的 
目 由 体操 运动 ， 油 画 比 赛 里 的 作品 打分 ， 再 如 CCTV 的 青 歌 赛 或 者 歌手 
选秀 节目 《图 5-3) 。 除 了 为 了 满足 娱乐 层面 和 商业 运作 层面 的 需求 
外 ， 这 个 评分 的 体系 还 是 被 期 望 有 一 定 的 公平 性 ， 那 要 怎么 做 呢 ? 调和 
的 思路 是 ， 既 然 是 主观 ， 那 一 个 人 的 主观 就 不 如 多 个 人 的 主观 更 公平 。 
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图 5-3 ”主观 性 的 评分 场景 


办 法 1: 多 个 裁判 同时 打分 ， 求 平均 值 。 这 样 由 个 别 裁判 主观 因素 
形成 的 不 公平 因素 融会 被 削弱。 


办 法 2: 去 掉 极 值 。 如 在 很 多 比赛 里 会 有 多 位 裁判 同时 打分 ， 然 后 
去 掉 两 个 最 高 分 ， 去 掉 两 个 最 低 分 。 这 种 办 法 也 是 为 了 削弱 由 个 别 裁判 
主观 因素 形成 的 不 公平 。 





办 法 3: ”加 权 平 均 。 加 权 平 均 在 这 种 情况 下 也 可 以 发 挥 作用 ， 例 

如 ， 一 些 选秀 类 市 目 除了 现场 裁判 打分 还 有 场 外 观众 打分 ， 妆 然 权重 可 
能 不 一 样 。 还 有 大 学 里 一 些 诬 程 评分 体系 也 是 有 类 似 的 思路 ， 期 末 考 试 
占 70% 的 总 评 成 绩 ， 平 时 的 作业 占 30% 的 总 评 成 绩 。 大 概 思 路 也 是 显 而 
易 见 ， 既 然 都 是 主观 评分 ， 那 裁判 有 权威 多 占 一 些 比重 ， 群众 相 对 更 不 
明 真 相 少 占 一 点 权 重 ; 或 者 ， 期 末 考 试 比 较 重要 比较 正规 多 占 一 些 成 绩 
比重 ， 平 时 的 成 绩 也 能 说 明 学 习 的 质量 但 是 相对 重要 性 较 低 少 占 一 些 成 
绩 比 重 。 通 过 这 样 的 均衡 来 降低 茶 一 个 人 或 者 某 一 次 主观 性 的 偶 兰 对 我 
们 期 望 的 尽 可 能 客观 的 评价 所 造成 的 影响 。 但 是 加 权 平 均 的 手法 在 实际 
生产 生活 中 作为 指标 评价 的 手段 其 实 并 不 容易 操作 。 主 要 问题 在 于 分 权 
引入 哪些 因素 更 为 合理 ， 因 为 这 些 被 引入 的 因素 的 成 分 很 可 能 不 可 控 。 
还 有 一 个 问题 是 各 因素 赋予 多 大 的 权重 更 为 合理 ， 这 通常 没有 一 个 可 靠 
的 标准 。 所 以 只 要 能 用 客观 数字 来 做 指标 ， 尽 量 使 用 客观 数字 ， 这 样 可 
操作 性 会 更 大 一 些 。 














5.2.2 ”指标 体系 的 构建 





当 准 备 为 公司 设立 或 调整 指标 体系 时 ， 请 先 确保 它 满 足 数字 化 、 易 
衡量 、 意 义 清 晰 、 周 期 恰当 等 基本 要 求 。 在 此 基础 之 上 ， 还 要 在 指标 的 
设置 上 进行 一 些 额外 的 考 完 。 


1. 指 标 考核 的 对 象 


指标 考核 的 对 象 是 谁 ? 换 句 话说 ， 谁 来 背 这 个 指标 ? 


不 能 背 指标 的 部 门 会 失去 活力 ， 从 老板 的 角度 来 看 ， 无 法 评价 员工 
的 好 坏 ， 进 步 与 个， 作用 大 小 ;从 部 门 自己 的 角度 来 看 ， 不 知道 生产 调 
整 的 方 回 是 进步 还 是 退步 以 及 幅度 多 大 。 所 以 ， 如 果 要 想 让 部 门 变 得 有 
活力 ， 部 门 以 及 部 门 中 的 每 个 人 都 应 该 背负 一 定 的 指标 。 而 指标 的 评价 
方 应 该 是 直接 享受 这 一 指标 收益 的 人 。 例 如 ， 公 司 的 后 勤 部 门 为 公司 员 
工 提供 各 种 后 勤 服务 ， 后 勤 部 门 背 人 负 的 指标 里 应 该 有 诸如 “员工 满意 
度 ” 这 种 指标 的 ， 而 这 种 指标 的 评价 方 应 该 是 享受 后 勤 部 门 服务 的 员工 
或 部 门 。 当 然 ， 不 建议 直接 使 用 员工 打分 的 形式 ， 应 该 尽量 用 “备货 
误 率 ”、“ 投 诉 率 ”等 相对 客观 可 循 的 数字 比较 好 。 














2. 指 标的 周期 





对 于 个 人 或 者 部 门 来 说 ， 指 标的 目的 是 为 了 进行 工作 质量 的 评价 和 





调整 ， 所 以 周期 要 设置 为 与 生产 周期 匹配 为 宜 。 在 很 多 劳动 密集 型 的 产 
业 ， 如 工厂 里 ， 工 作 指 标 是 用 小 时 做 单位 的 ， 在 一 些 超 市 里 打 零 工 的 码 
贷 员 一 类 的 职位 同样 用 的 是 小 时 为 单位 的 指标 ， 因 为 他 们 的 劳动 场景 以 
小 时 为 单位 就 可 以 做 出 完整 评价 ， 如 "平均 每 小 时 成 品 数量 `“ 平 均 每 


小 时 工资 ?等 。 








在 互联 网 企业 里 很 多 产品 指标 的 周期 是 天 ， 某 个 部 门 和 茶 个 人 的 指 
标 周 期 是 周 或 者 月 ， 对 于 公司 级 别 的 指标 则 很 多 是 用 月 、 季 上 度 、 年 来 做 
单位 的 。“Q4 销 售 额 ”〈 第 四 季度 销售 额 ) 、“2015 年 度 盘 亏 ?， 这 两 个 指 
标 一 个 以 季度 为 单位 进行 统计 ， 另 一 个 则 以 年 为 单位 进行 统计 。 








3. 指 标的 比较 


Fs n] 以 横 问 对 比 也 可 以 纵 同 对 比 ， 但 是 不 能 “ 斜 痢 比 ”。 





所 谓 横 向 ， 就 是 指 同一 部 门 或 同一 工种 之 间 的 同一 指标 的 对 比 。 横 
回 通 种 用 在 某 一 特定 时 段 ， 对 员工 进行 排名 或 者 评 优等 评价 。 同 一 生产 
线 上 的 同一 工种 的 每 个 工人 的 “平均 每 小 时 成 品 数量 是 可 以 比较 的 ， 比 
较 的 结果 就 是 谁 平 均 每 小 时 成 品 能 力 更 强 。 














所 谓 纵 问 ， 就 是 同一 部 门 或 者 同一 员工 ， 目 己 菏 一 指标 在 不 同时 段 
的 对 比 。 


纵 问 一 般 只 用 好 同比 和 环比 就 可 以 了 ， 只 比较 不 同时 段 的 情况 。 例 


如 ， 销 售 部 门 的 销售 额 ，8 月 为 1000 万 ， 同 比 增加 20%， 环 比 增加 10%， 
这 种 比较 就 是 典型 的 纵向 比较 。 








但 是 “ 斜 着 比 ” 通 党 没有 可 比 性 。 同 一 时 间 上 段 不 同 部 门 的 不 同 指标 之 
间 ， 单 纯 从 数字 大 小 是 能 比较 的 ， 但 是 比较 的 结果 没有 任何 解释 性 的 意 
义 ， 所 以 一 般 不 做 这 种 对 比 。 


4. 复 合 指标 


复合 指标 是 针对 基础 指标 而 言 的 。 


基础 指标 一 般 认为 是 不 可 再 分 的 指标 ， 如 PV 数 ， 这 个 指标 再 分 是 
没有 业务 意义 解释 的 。 





复合 指标 一 般 是 由 基础 指标 和 复合 指标 进行 运算 得 到 的 。 如 游戏 中 
常用 的 “用 户 留 存 率 * 束 是 一 个 复合 指标 ， 因 为 它 是 由 两 个 基础 指标 计算 
而 来 的 ， 一 个 是 “注册 用 户 数 "， 一 个 是 “留存 用 户 数 "， 用 “留存 用 户 
数 ” 除 以 “注册 用 户 数 ” 得 到 的 商 作为 "用 户 留 存 率 ?指标 。 














复合 指标 在 指标 体系 里 的 数量 还 是 很 多 的 ， 尤 其 是 越 宏观 的 数据 指 
标 越 是 复合 指标 ， 这 也 符合 “ 抓 大 放 小 ”的 管理 原则 。 在 经 济 学 和 社会 学 
上 用 到 的 很 多 指标 都 是 复合 指标 ， 如 ， 全 球 繁 采 指数 、 社 会 基尼 系数 


x 
等 。 








除了 一 些 比较 大 型 、 层 级 多 、 涉 及 行业 或 生产 环节 多 的 公司 以 外 ， 


一 般 的 中 小 型 公司 通常 不 推荐 使 用 过 于 复杂 的 复合 指标 体系 ， 因 为 这 让 
指标 反映 变 得 不 直观 ， 反 馈 也 不 直观 。 这 样 的 指标 值 上 升 了 或 者 下 降 
了 ， 我 们 无 法 快速 地 找到 诱发 的 基础 指标 ， 更 无 法 快速 地 找到 对 应 的 环 
节 、 部 门 或 人 一 一 让 反映 变 得 迟钝 肯定 不 会 是 管理 的 目的 。 
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读 到 这 里 我 们 已 经 读 完了 前 5 半 内 容 。 如 果 和 觉得 有 些 乏 累 ， 可 以 先 
iO, AAEM At Boe Ss. FERS ES BRAN SAAS 
统计 、 概 率 、 分 布 、 指 标 等 内 容 ， 附 录 里 提供 了 数据 收集 以 及 其 他 辅助 
技术 ， 如 果 使 用 好 这 些 知识 ， 日 常 运营 中 的 多 数 问 题 就 都 能 解决 了 。 








后 面 的 内 容 会 更 多 俩 重 数据 的 深度 挖掘 和 机 器 学 习 ， 对 于 基础 运营 
人 员 来 说 这 是 要 求 更 高 的 内 容 了。 如 果 感 觉 前 面 的 内 容 没什么 困难 那 请 
放松 心情 继续 往 下 读 吧 ， 它 们 虽然 离 生 产生 活 会 略 远 一 些 ， 但 是 同样 不 
难 。 








第 6 章 信息 论 
从 本 章 开 始 就 要 逐步 展开 数据 挖掘 和 机 器 学 习 相关 的 内 容 了 。 


虽然 信息 论 和 很 多 数据 挖掘 算法 没有 直接 的 关联 应 用 ， 但 是 也 有 相 
当 比 例 的 机 器 学 习 算法 中 应 用 到 了 信息 论 的 概念 ， 所 以 这 里 还 是 要 提 一 


下 信 A ie o 








fci I Ve ZG SEXE 20TH RA HZ TLC EN GE ZUR CRX 
言 系统 、 数 据 传输 、 蜜 码 学 、 数 据 压 缩 等 学 科 领 域 融 来 了 更 多 的 提示 和 
理论 依据 ， 也 极 大 地 促进 了 这 些 学 科 领 域 的 长 足 发 展 。 








Jio te AAR (Claude Shannon) 被 称 为 “信息 论 之 父 ”。 人 们 通常 将 
香农 于 1948 年 10 月 发 表 于 《贝尔 系统 技术 学 报 》 上 的 论文 《A 
Mathematical Theory of Communication) 〈《 通 信 的 数学 理论 》) 作为 
现代 信息 论 研究 的 开端 。 图 6-1 U 所 示 为 克 劳 德 : 香 农 。 











图 6-1 Sho ARK 


信息 论 涉及 的 内 容 非 常 多 ， 这 里 只 挑选 和 相关 的 最 基本 的 知识 点 来 
讲述 。 


[1] 图 片 来 自 百 度 百科 。 


6.1 信息 的 定义 





前 面 的 章节 已 经 定性 地 介绍 了 信息 的 含义 。 这 里 引用 最 被 大 家 广泛 
认可 的 一 种 科学 性 的 信息 定义 一 一 “信息 是 被 消除 的 不 确定 性 。” 这 是 
1928 年 由 哈 特 莱 〈R.V.L.Hartley) 提出 的 概念 。 这 人 句 话 读 起 来 还 是 不 够 
具象 ， 下 面 举例 来 说 明 。 





还 是 讨论 前 面 提 到 的 足球 赛 结果 的 例子 吧 6-2) 


东 一 天 巴西 足球 队 和 中 国足 球 队 进行 了 比赛 。 


结果 第 二 天 张 三 说 “昨天 巴西 队 顾 了 。?” 


而 后 李 四 说 “昨天 中 国 队 输 了 。” 


再 而 后 王 五 说 “昨天 的 比赛 不 是 平局 。” 


PB vs CH 





POCE 我 常 得 是 平局 肯定 巴西 





3c 


0 





图 6-2 足球 比赛 


在 没有 比赛 之 前 ， 我 们 只 能 对 结果 做 一 个 猜测 ， 仅 仅 凭 借 上 自己 对 足 
球 比较 规则 的 了 解 ， 结 宁 无 非 3 种 : “巴西 胜 ” “巴西 负 ”"、“ 和 平局 ”。 任 何 
一 种 的 可 能 性 都 是 存在 的 ， 然 而 由 于 一 些 其 他 原因 导致 其 中 茶 一 种 可 能 
性 出 现 的 几率 更 大 《大 家 都 全 的 ) 。 


当 有 人 告诉 我 准确 的 结果 后 ， 如 “巴西 胜 "， 那 么 另外 两 种 结果 就 不 
存在 了 ， 这 个 过 程 就 是 前 面 说 的 “消除 随机 不 确定 性 ”， 这 一 句 “ 巴 西 





胜 ” 束 是 信息 。 当 随机 不 确定 性 被 消除 后 ， 再 个 告 知 的 这 些 消 忠 里 束 没 
有 消除 随机 不 确定 性 的 因 系 了 ， 所 以 这 些 消息 就 不 是 信息 。 但 是 如 果 有 
人 具体 描述 了 由 谁 在 什么 时 间 进 球 得 分 或 者 犯规 嗓 了 红 黄 牌 则 又 是 信 
恩 ， 因 为 这 个 消息 又 消除 了 其 他 的 不 确定 性 。 
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6.2.1 信息 量 的 计算 


信息 量 是 一 个 重要 的 知识 点 。 平 时 在 读 网 文 的 时 候 会 看 到 很 多 人 开 
玩笑 说 茶 茶 消息 信息 量 真 大 ， 其 实 言 外 之 意 是 说 这 篇 网 文 在 字面 意思 的 
育 后 再 琢磨 一 下 能 推 类 出 很 多 其 他 信息 来 。 而 在 信息 论 中 ， 对 信息 量 是 
有 确定 解释 并 且 可 以 量化 计算 的 ， 这 里 提 到 的 信息 量 是 一 种 信息 数量 化 
度量 的 规则 ， 注 意 ， 信 息 是 具体 要 数量 化 的 而 不 再 是 前 面 开 玩笑 中 的 大 
小 的 说 法 。 





















































用 科学 的 公式 性 的 方法 量化 一 段 说 话 的 录音 ， 一 段 文 字 有 多 少 信 息 
HAE T Be Xe AE TE 19284E FH PRESE. CR.V.L.Hartley? 首先 提出 ， 即 信息 
定量 化 的 初步 设想 ， 他 将 消息 数 的 对 数 〈log) EMA kk Es Ere s 
有 m 种 消息 ， 且 每 个 消 妃 是 以 相等 可 能 产生 的 ， 则 该 信 源 的 信息 量 可 表 
示 如 下 : 


I-log,m 





这 段 话 不 太 好 懂 是 吗 ? 我 们 具体 化 看 一 下 会 有 更 加 深刻 的 认识 。 


上 述 公 式 是 一 个 以 m 为 自 变 量 的 对 数 函 数 ， 即 1 (m) =log m。 还 记 
得 对 数 函 数 的 定义 是 什么 吗 ? 这 里 复习 一 下 ， 例 如 ，23 =8《〈 即 2x2x2， 


28]3/0OE ^ T 80 ， 那 么 log, 8-3. 


举 个 具体 的 例子 ， 假 设 是 中 国 兵 乓 球 队 和 巴西 乒乓 球 队 的 男子 单打 
比赛 ， 注 意 ， 它 和 足球 比赛 可 大 不 一 样 ， 它 不 存在 平局 的 问题 。 那 么 中 
国 乒 乓 球 队 获胜 ， 巴 西 兵 乓 球 队 获胜 ， 这 两 个 就 已 经 是 所 有 可 能 发 生 的 
情况 了 ， 只 有 2 种 情况 ， 即 上 述 公式 中 m=2， 信 源 有 2 种 《中 国 队 获胜 且 
巴西 队 失 败 ， 巴 西 队 获胜 且 中 国 队 失败 ， 这 2 种 信 源 消息 穷 举 了 所 有 的 
可 能 性 ) 。I=log 2=1， 信 息 量 为 1， 单 位 是 比特 (bit) 。 


再 举 一 个 例子 ， 足 球 世 界 杯 在 淘汰 赛 阶段 会 有 32 文 球 队 参 赛 ， 分 为 
8 组 ， 每 组 4 文 球 队 ， 通 过 单 循环 赛 每 个 组 有 两 支 球 队 会 有 出 线 权 ， 之 后 
就 是 各 自 捉 对 所 杀 直 到 决 出 冠军 。 理 论 上 讲 ， 在 32 支 球 队 没 有 开赛 之 前 
每 支 球 队 都 是 有 获取 冠军 的 可 能 性 的 。 也 就 是 说 ， 对 于 谁 获得 冠军 这 件 
事 来 讲 ， 有 32 种 情况 。 那 么 最 后 在 不 知道 比赛 过 程 的 情况 下 ， 突 然 被 通 
知 有 一 支 球 队 获 胜 ， 这 个 信息 量 为 多 大 呢 ?” 即 m=32( 也 就 是 32 文 球 队 
的 任意 一 支 获胜 都 是 一 种 信 源 消息 ，32 种 信 源 消息 穷 举 了 所 有 的 可 能 
性 ) ，I=log, 32=5， 信 息 量 为 5， 单 位 是 比特 (bit) 。 

















为 了 计算 方便 ， 这 里 使 用 的 是 m 为 2 的 整 次 虹 来 计算 的 。 比 对 一 下 
结果 不 难 发 现 ， 后 者 有 32 个 可 能 值 的 时 候 信息 量 为 5， 有 2 个 可 能 值 的 时 
候 信息 量 为 1。 极 端 情况 是 ， 只 有 1 个 可 能 值 的 时 候 信 息 量 为 0， 因 为 log， 
1=0， 也 就 是 无 须 告知 也 知道 结果 时 ， 即 便 告 知 了 结果 ， 信 息 量 也 为 0。 








6.2.2 ”信息 量 的 理解 


看 到 这 里 ， 可 能 有 一 些 读 者 已 经 看 出 一 些 政 盾 来 了 。 佑 计 会 有 人 有 
下 面 的 质疑 。 











“我 怎么 觉得 中 国 乒 乓 球 队 和 巴西 乒乓 球 队 的 比赛 毫 无 巧 念 呢 ? 基 
本 可 以 确定 中 国 获胜 ， 那 说 中 国 获胜 跟 废话 区 别 大 吗 ?” 








“我 怎么 觉得 中 国足 球 队 和 巴西 足球 队 的 比赛 也 毫 无 悬念 呢 ? 基本 
可 以 确定 巴西 获胜 ， 那 说 巴西 获胜 信息 量 是 0 吗 ? ” 











“按照 理论 ， 消 除 的 不 确定 程度 越 高 ， 信 息 量 越 大 ， 消 除 的 不 确定 
程度 越 低 ， 信 息 量 越 小 。 那 么 ， 前 面 的 计算 方法 似乎 不 成 立 啊 ! ” 


这 种 质疑 确实 有 道理 。 





回 过 头 来 看 看 ， 刚 才 使 用 I=log> m 这 个 公式 来 计算 信息 量 其 实 是 有 
一 个 隐 仿 前提 的 ， 就 是 m 种 情况 产生 的 概率 是 均等 的 ， 没 有 任何 一 种 信 
源 比 其 他 信 源 出 现 的 可 能 性 大 。 举 一 个 极端 的 例子 ， 虽 然 有 两 种 情况 发 
生 ， 但 是 一 种 可 能 性 实在 大 到 接近 1009%， 而 另 一 种 可 能 性 接近 0。 





例如 ， 现 在 的 《中 华人 民 共 和 国道 路 交通 安全 法 》， 也 就 是 人 们 平 
时 说 的 交通 法 规 ， 其 中 规定 “ 红 灯 俘 绿灯 行 ”， 在 茶 一 次 进行 区 通 法 规 修 





订 的 时 候 被 修改 为 红 灯 行 绿灯 停 的 可 能 性 有 多 大 ? 理论 上 说 这 种 可 能 性 
确实 存在 ， 至 少 没有 办 法 证 明 它 一 定 不 存在 ， 但 是 实际 上 从 人 关 社 会 协 
调 的 角度 看 ， 从 修法 的 社会 效 荔 来 看 ， 确 实 也 是 没有 理由 。 所 以 在 一 次 
交通 法 规 修 订 后 ， 被 告知 “交通 法 规 仍旧 是 红 灯 停 绿灯 行 * 这 一 信息 的 信 
奶 量 如 何 呢 ? 那 显然 跟 0 差 不 多 ， 虽 然 这 种 情况 mm 确实 是 2。 那 么 这 种 概 
率 不 等 的 情况 应 该 怎么 计算 比较 合适 呢 ? 信息 论 里 也 有 确切 的 解释 和 计 
算 方 法 。 











在 日 常生 活 中 ， 极 少 发 生 的 事件 一 旦 发 生 是 容易 引起 人 们 关注 的 ， 
而 司空 见 惯 的 事件 不 会 引起 注意 ， 也 就 是 说 ， 极 少见 的 事件 所 带 来 的 信 
奶 量 大 。 如 果 用 统计 学 的 术语 来 描述 ， 就 是 出 现 概率 小 的 事件 信息 量 
大 。 因 此 ， 事 件 出 现 的 概率 越 小 ， 信 息 量 越 大 ， 即 信息 量 的 多 少 是 与 事 
件 发 生 频 或 程度 大 小 〈 即 概率 大 小 ) 恰好 相反 的 ， 这 里 不 能 称 作成 反 
比 ， 因 为 它们 不 是 倒数 关系 。 








公式 如 下 : 
H(X)=—log, P 


Xi 表示 一 个 发 生 的 事件 ，P 表 示 这 个 事件 发 生 的 先 验 概 京 。 所 谓 先 
验 概率 ， 就 是 这 个 事件 按照 常理 ， 按 照 一 般 性 规律 发 生 的 概率 。 


还 是 用 上 述 中 国 兵 乓 球 队 和 巴西 乒乓 球 队 比赛 的 例子 来 说 明 。 


假设 中 国 乒 乓 球 队 和 巴西 兵 乓 球 队 历史 交手 共 64 次 ， 其 中 中 国 获胜 
63 次 ，63/64 是 赛 前 普 志 认可 的 中 国 队 获胜 的 概率 ， 即 先 验 概 率 。 那 么 
这 次 中 国 获胜 的 信息 量 有 多 大 呢 ? 





03 
A(X,)=—log, — =0.023 
(X))=-logs — 





巴西 获胜 的 信息 量 有 多 大 呢 ? 
SN l 
H(X)=—log, — =6 
64 
单位 都 是 bit。 


同 理 得 到 ， 对 于 概率 100% 的 事件 ， 信 息 量 为 0。 











而 概率 特别 小 的 事件 信息 量 是 多 少 ， 是 无 穷 大 吗 ? 再 来 看 一 个 例 


胡 润 研究 院 发 布 了 2015 年 中 国富 聚 榜 ， 王 健 林 2200 亿 元 财富 超过 马 
云 重 回 中 国 首富 宝座 ， 马 云 以 1450 亿 元 位 于 第 二 名 。 











马云 身价 1450 亿 元 ， 假 设 一 个 人 通过 每 次 购买 双色 球 中 头 奖 而 得 到 
500 万 奖金 〈 而 且 假 设 不 需要 交 税 ) ， 那 就 是 最 快 的 情况 下 需要 连 中 
29000 次 才能 赶 上 马云 (图 6-3) 。 也 就 是 说 假设 一 星期 开奖 3 次 ，3 次 全 
中 500 万 ， 需 要 连 中 185.9 年 。 前 面 算 过 ， 中 头等 奖 的 概率 为 


1 ] 00 
1/17721088, —— ae 721 088 : 
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H(X;)-—29 000 X log, 17 7210882" 687 





信息 量 约 为 70 万 。 


当然 ， 这 个 例子 其 实 非常 不 不 严 说， 因为 185.9 年 通胀 得 有 多 少 没 
有 人 知道 ， 马 云 在 185.9 年 内 的 情况 也 全 无 定数 ， 我 们 这 个 例子 完全 是 





一 种 刻 舟 求 剑 的 示意 而 已 ， 切 葛 深 宛 。 我 们 看 一 下 ， 这 种 已 经 不 可 能 到 
极点 或 者 殉 恋 到 极点 的 信息 也 不 是 我 们 想象 的 天 文 数 字 ， 但 是 要 知道 在 
言 轧 量 里 这 种 几 十 万 的 数字 已 经 就 是 天 文 数字 了 ， 我 们 有 个 感性 认识 惑 
可 以 了 ， 在 实际 生产 生活 中 我 们 计算 这 种 事情 的 信息 量 的 机 会 其 实 也 不 
多 。 








香农 他 老人 家 留 给 我 们 最 经 典 不 过 的 东西 就 是 香农 公式 了 一 一 这 个 
以 他 老人 家 的 大 名 命名 的 公式 。 在 数据 挖掘 和 机 器 学 习 中 我 们 没什么 机 
会 用 到 香农 公式 ， 不 过 他 发 明 的 这 个 公式 无 时 无 刻 不 在 我 们 号 边 飘 荡 。 
不 信 吗 ? 我 们 用 的 无 线路 由 口 的 通信 传输 速度 就 是 用 香农 公式 来 计算 
的 ， 讲 到 信息 论 我 党 得 还 是 提 一 句 这 个 经 典 公式 比较 好 。 我 们 先 来 看 一 
PITT: 


C = B-log,| 1 
li: N 





单位 bps。 


其 中 : 





:B 是 人 码 元 速率 的 极限 值 ( 奈 硅 斯 特 指 出 ，B=2H，H 为 信道 带宽 ， 单 
位 为 Baud) ; 





.S 是 信号 功率 COR; 





NEAR (PL) 。 








这 个 让 人 头 大 的 公式 确实 尝 得 很 ， 如 果 你 不 是 搞 通 信 工 程 的 ， 那 么 
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公式 左边 的 C 表 示 在 一 个 信道 里 面 信号 传输 的 速度 上 限 ， 单 位 为 比 


公式 右面 的 B 是 和 带宽 大 小 H 成 正比 的 ， 带 宽 越 大 传输 速度 越 快 ， 
不 管 是 有 线 传输 还 是 无 线 传输 。 





SN 是 信 噪 比 ， 葡 是 要 传输 的 信号 功率 和 在 这 个 信道 里 产生 的 各 种 
言 号 品 声 〈 基 本 都 是 电信 号 或 者 无 线 射 频 信 号 ) 的 功率 大 小 比值 。 











从 公式 定性 分 析 来 看 ， 带 宽 越 大 传输 速度 越 快 。 这 里 的 带宽 与 人 们 
平时 说 的 “家 里 装 了 100Mbps 的 电信 宽带 ?中 的 带宽 不 是 一 个 概念 ， 这 里 
的 带宽 的 单位 是 Baud〈 波 特 ) ， 家 里 装 的 宽带 带宽 单位 是 bit《〈 比 特 ) 。 


信 噪 比 越 大 传输 速度 越 快 ， 这 平时 也 有 体会 ， 就 是 WiFi 满 格 时 或 者 
4G 信 写 满 格 时 看 网 页 、 下 载 电 影 速度 就 快 ， 这 个 时 候 普 过 的 信 品 比比 
较 大 ;相反 WiFi 信 号 或 者 4G 信 号 只 有 一 格 时 刷 网 页 效果 会 非常 不 好 ， 
能 出 来 就 不 错 了 ， 还 有 的 时 候 居然 刷 了 半天 设 反 应 ， 这 个 时 候 其 实 主要 
就 是 因为 信 噪 比比 较 小 〈 图 6-4) 。 
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信 品 比 小 就 影响 传输 ， 传 过 去 的 信号 由 于 噪声 信号 干扰 太 大 ， 传 输 
有 可 能 完全 不 成 功 。 如 果 万 幸 信 噪 比 的 大 小 还 能 保证 部 分 信号 传输 成 
功 ， 那 又 希望 保证 传输 的 信息 是 完整 的 怎么 办 ? 只 能 多 传 几 次 或 者 在 信 
县 后 面 加 入 一 些 校 验 码 来 做 信息 元 余 。 





6.4 Hà 
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(shang) ， 也 是 最 抽象 的 一 个 概念 。 


“ 业 ” 这 个 词 在 热力 学 、 生 物 学 、 信 息 学 上 都 出 现 过 ， 而 且 都 有 比较 
确切 的 科学 解释 。 





图 6-5” 克 劳 修 斯 


AIFP RO A8" HL: 251855 4F EH ES] YB Se HAN HS ER: 
AS REBORN CÉde-5 7» 提出 的 。 据 史料 称 ，1870 
年 区 区 修 斯 在 普法 战争 中 组 织 了 一 文 救 伤 队 奔赴 前 线 ， 而 他 本 人 在 战争 
中 受 了 伤 而 且 持 久 伤 残 ， 因 此 被 授予 铁 十 字 勋 章 。 








克 苑 修 斯 在 物理 学 方面 的 贡献 主要 在 热力 学 方面 ， 别 的 我 们 都 不 
je. Hin. WRIT RE BAT AGES BATA Bl YS SABES 
生 时 代 常 见 的 现象 来 做 说 明 吧 。 


在 一 个 “U” 型 权 里 ， 放 一 个 小 铁 球 ， 在 没有 空气 、 没 有 摩擦 的 情况 
下 ， 小 铁 球 从 一 端 高 点 落下 会 由 于 能 量 守恒 定律 在 这 个 “U?” 型 槽 里 反复 
运动 ， 从 左 到 右 再 从 右 到 左 。 这 是 理想 的 无 能 量 损失 的 状态 。 

















而 实际 状况 是 什么 呢 ? 空气 阻力 以 及 槽 壁 与 小 铁 球 之 间 的 摩 探 使 得 
一 部 分 能 量 从 重力 势能 同 动能 转化 的 过 程 中 损耗 控 ， 小 铁 球 随 之 能 够 到 
达 的 高 点 也 越 来 越 低 。 在 这 个 过 程 中 ， 越 来 越 多 的 机 械 能 不 可 逆 地 变 成 
了 内 能 一 一 人 们 观察 到 的 就 是 整个 系统 及 热 ， 远 度 会 升 高 一 些 ， 从 而 产 
^E XS. DUARTE CF RAS EP ZR VR... 
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增加 的 炳 是 什么 ? HT ASA, ATOR Re Be EEE, BY DATE 
出 ， 最 后 小 铁 球 运动 的 机 械 能 全 部 转化 成 了 内 能 ， 也 就 是 在 整个 系统 中 














最 后 温度 会 上 升 。 能 量 是 怎么 转化 的 呢 ? 根 据 分 子 动 理 论 ， 最 开始 系统 
中 的 各 种 分 子 不 管 是 固体 还 是 气体 都 以 较 低 的 速度 进行 布 明 运动 ， 也 就 
是 无 规则 的 运动 。 而 有 相当 质量 的 小 铁 球 在 系统 里 却 是 按照 一 个 相对 确 
定 的 方向 往复 运动 ， 它 是 有 机 会 由 重力 势能 转化 成 动能 ， 再 从 动能 转化 
成 重力 势能 的 ， 当 然 也 有 机 会 转化 成 内 能 。 











最 开始 (图 6-6) : 


系统 里 的 总 能 量 = 小 铁 球 的 重力 势能 + 小 铁 球 的 动能 + 内 能 


最 开始 小 铁 球 的 重力 势能 较 大 ， 小 铁 球 的 动能 为 零 ， 内 能 较 小 。 


在 中 间 茶 一 时 刻 小 铁 球 运行 到 最 低 点 时 ， 小 铁 球 的 重力 势能 为 零 ， 
小 铁 球 的 动能 较 大 ， 内 能 比 最 开始 时 升 高 〈 图 6-7) 。 





Kle-6 ”开始 时 《〈 见 彩 揪 ) 
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图 6-7 ”小 球 运动 到 最 低 点 〈 见 彩 插 ) 


最 后 小 铁 球 静 止 时 ， 小 铁 球 的 重力 势能 为 零 ， 动 能 也 为 零 ， 内 能 升 
高 到 最 高 (图 6-8) 。 


最 后 机 械 能 全 部 不 可 逆 地 转化 成 内 能 ， 而 这 些 内 能 是 没有 机 会 再 变 
成 机 械 能 的 ， 这 个 内 能 的 增加 量 就 是 整个 系统 里 烂 的 增 量 (图 6-9) 。 





图 6-8 “小 铁 球 静止 





图 6-9 MKE CUERO 


其 实 从 最 微观 的 角度 去 看 也 是 一 样 的 ， 最 开始 大 量 铁 原子 的 质量 由 
于 地 球 引 力 基 本 都 是 以 一 定 的 速度 同一 方面 前 进 ， 再 死 服 重力 升 高 ， 再 
往复 。 到 最 后 由 于 能 量 在 摩擦 中 都 给 了 周转 的 空气 分 子 和 其 他 分 子 ， 其 
他 分 子 癌 各 个 不 同方 向 前 进 的 速度 都 变 快 了 ， 温 度 升 高 了 ， 但 是 再 也 没 
有 能 力 像 原来 铁 原 子 一 样 癌 一 个 方 同 运动 了 《图 6-10) 。 








我 们 也 可 以 粗略 地 认为 ， 这 种 分 子 运 动 的 杂乱 程度 变 高 了 ， 伴 随 着 
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v ess. 
不 跑 了 
早死 宝宝 了 / 









图 6-10 分子 不 能 向 一 个 方 同 运 动 〈 见 彩 插 ) 


也 有 一 些 物 理学 家 推广 了 热力 烂 的 存在 场景 ， 放 到 整个 宇宙 里 去 ， 
je f ARGIS (Heat Death) 这 种 猜想 宇宙 终极 命运 的 假说 一 一 最 早 
是 由 爱尔兰 数学 物理 学 家 威廉 :汤姆 森 CWilliam Thomson) 于 1850 年 提 
出 的 。 大 意 是 ， 宇 宙 也 是 由 原子 之 间 的 斥 力 引力 所 提供 的 能 量 来 运动 
的 ， 字 宙 最 终 和 上 述 “U? 型 槽 命运 差不多 ， 也 是 向 着 箭 增 的 方向 发 展 ， 
最 后 宇宙 所 有 角落 的 机 械 能 都 没有 了 ， 宇 宙 内 能 增高 ， 一 片 死 科 。 但 是 
到 目前 为 止 还 没有 任何 事实 证 据 支 持 该 学 说 的 正确 性 。 

















[1] 图 片 来 源 于 百度 图 库 。 
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者 形式 比较 像 。 





& Ii a REED Rai SWRA REBAR US, Rots RI WU Ae 
言 恩 的 杂乱 程度 的 量化 描述 。 





ANT: 


H(x)- = p(x,)log, P(x,) , i=1,2,.:…,n 
j=l 





AB. xn ELT IBI ERS Ea x, 产生 的 概率 乘 以 该 可 能 
性 的 信息 量 ， 然 后 各 项 做 加 和 。 


也 许 有 的 读者 在 其 他 资料 上 会 看 到 这 里 的 log 是 取 10 的 对 数 1g， 或 者 
目 然 常 数 e 的 In 自 然 对 数 。 这 里 强调 一 下 ， 在 应 用 的 过 程 中 用 任何 一 种 
(EUR AD Ze AY DAK, (ETERS ERR AE SEP, BABAK DY 
HERAT Jk i E D ZU Hd TA] ANR, AN BERS AST ERP OR h BIA E 
(BOM AER EER, RESET M ORRIRA, BREK 
度 单 位 ， 但 是 3 米 +2 瑞 尺 既 得 不 到 5 米 也 得 不 到 5 英尺 〉》。 本 书 的 例子 大 





部 分 都 是 使 用 以 2 为 底 的 对 数 进 行 计算 ， 请 注意 这 一 点 。 





1. 示 例 1: 2 选 1“ 一 边 倒 ” 





为 了 说 得 清楚 还 是 具体 举例 吧 ， 还 是 用 中 国 乒 乓 球 队 和 巴西 兵 乓 球 
队 比赛 的 例子 说 明 。 


假设 中 国 乒 乓 球 队 和 巴西 兵 乓 球 队 历史 交手 共 64 次 ， 其 中 中 国 获胜 
63 次 ，63/64 是 赛 前 普 过 认可 的 中 国 队 获胜 的 概率 一 注意， 这 个 是 先 
验 概率 。 那 么 这 次 “中 国 获胜 ?这 个 消息 的 信息 量 有 多 大 呢 ? 











^ 


63 
H(Xi)--log, — ~ 0.023 
64 





“巴西 获胜 ”的 信息 量 有 多 大 呢 ? 


l 
A(Xi)=—log, — =6 
64 
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对 于 无 限 不 循环 小 数 只 能 根据 需要 取 一 个 近似 值 ， 注 意 这 是 一 个 “2 
el Tae, AF HWA Re HEA SS re” AS Dy 


2. 示 例 2: 2 选 1“ 差 不 多 ” 


再 看 一 个 两 者 势均力敌 的 例子 ， 假 设 德国 兵 乓 球 队 和 法 国 兵 乓 球 队 
比赛 ， 双 方 历史 交手 64 次 ， 交 手 胜 负 为 32: 32， 那 么 1/2 是 赛 前 普遍 认 
可 的 德国 队 的 获胜 概率 ， 同 时 也 是 法 国 队 的 获胜 概率 。 


德国 获胜 的 信息 量 : 


法 国 获胜 的 信息 量 : 


fup fes ERN 


注意 这 是 一 个 “结果 2 选 1 日 等 概率 ”的 炳 。 


3. 示 例 3: 32 选 1“ 差 不 多 ” 


如 宁 在 足球 世界 杯 决赛 阶段 ， 即 假设 32 文 球 队 获 得 冠军 等 概率 的 情 
bb PRET fs SITE o 





队伍 1 获胜 的 信息 量 : 


H(Xi) » -log, — =5 
e. 
队伍 2 获胜 的 信息 量 : 
x l 
H(Xi) 2 -log, —=5 
E. 
队伍 32 获 胜 的 信息 量 : 
l 
H(Xi) - -log, —=5 
p 
Juifs A (320) 
AN ER E rus 
32 32 32 
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4. 示 例 4: 32 选 1“ 一 边 倒 ” 


假设 队伍 1 获胜 概率 为 999%， 而 其 他 31 文 队伍 每 一 文 队伍 的 获胜 概 
BE 73190/31, KERN e IZ Rp 


队伍 1 获胜 的 信息 量 : 


H(Xi)--log,0.99 ~ 0.014 5 


队伍 2 获胜 的 信息 量 : 








Hl eee 11.50 
31 
队伍 32 获 胜 的 信息 量 : 
H(Xi)=-log, =-~ 11.60 





Wiz; EWA Cif — 431^ (0.01/31) x11.60) 
.. 0.01 0.01 0.01 
0.99 x 0.014 5+ —— X 11.60-- —— Xx 11.607---— —— x 11.60 = 0.130 
31 31 31 
5. 结 论 


在 信息 可 能 有 N 种 情况 时 ， 如 果 每 种 情况 出 现 的 概率 相等 ， 那 么 N 
WK, fe AWK 


在 信息 可 能 有 N 种 情况 时 ， 当 N 一 定 ， 那 么 其 中 所 有 情况 概率 相等 
时 信息 烂 是 最 大 的 ， 而 如 果 有 一 种 情况 的 概率 比 其 他 情况 的 概率 都 大 很 
多 ， 那 么 信息 焙 就 会 越 小 





具体 的 值 在 具体 情况 可 以 进行 量化 的 计算 比较 。 笼 统 地 说 就 是 : 


aE, BUR, fa), 


E Bk AS BR XE , 越 泥 乱 , fa ERRAK 9 
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道 它 用 在 哪里 。 既 然 它 是 用 来 度量 信息 混乱 程度 的 ， 那 么 凡是 关心 信息 
混乱 程度 对 系统 的 影响 的 地 方 都 可 以 用 信息 燃 来 辅助 调整 或 判断 。 





例如 ， 后 面 将 要 介绍 的 判定 树 算 法 里 就 可 以 用 信息 燃 来 进行 条 件 的 
优化 ; 在 文本 挖掘 中 可 以 用 信息 燃 来 断定 一 个 句子 断 句 的 方案 和 各 自 成 
句 的 可 能 性 。 











65. 小结 








AN me SAAS Ie. IE MA RTE, TOE 
ela AMT IE, FESR TER SUSE BA DAD. UA pe EE Bi 
TEEMAS DNA, MERK, BIC EERE PENA EEE S, RAW 
处 没有 坏处 。 








第 7 革 ”多维 问 量 空间 


7.1 HÆMMES 


回 量 (Vector) 这 个 词 最 初 来 源 于 几何 学 。 











几何 向 量 也 称 为 欧 几 里 得 向 量 ， 通 常 简称 向 量 、 矢 量 ， 是 指 具 有 大 
小 和 方向 的 几何 对 象 表示 。 为 了 形象 表示 ， 在 平面 几何 和 立体 几何 中 通 
常 把 一 个 向 量 画 成 一 个 箭头 。 在 中 学 同样 学 过 用 复数 来 表示 的 向 量 ， 如 
2+3i， 其 实 相 当 于 x 和 y 两 个 向 量 维度 空间 里 的 向 量 ， 是 从 点 〈0，0) 到 
(2, 3) ZW BHE (Al7-1) . 




















图 7-1 问 量 的 表示 





向 量 除 了 用 箭头 表示 外 ， 还 有 一 种 在 数据 计算 领域 更 常用 的 方法 ， 
即 用 (a,，b，c，d，...) 来 表示 。 其 中 ，a、b、c、d 等 每 个 元 素 都 是 一 
个 维度 上 的 数据 取 值 。 在 大 数据 领域 的 计算 对 象 基本 都 是 这 种 格式 的 问 
量 ， 所 以 只 要 理解 这 种 格式 的 含义 就 可 以 了 。 








下 面 通 过 具体 的 例子 认识 回 量 的 用 法 。 





例如 ， 在 一 个 企业 的 数据 仓库 中 要 描述 一 条 销售 信息 ， 可 以 表示 如 
F: 


("北京 ，' 电 风 户 '，' 网 上 商城 T'"，400000) 
括号 里 的 向 量 各 个 维度 分 别 表示 如 下 : 
(地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 ) 


上 面 的 叫做 向 量 实例 ， 下 面 的 叫做 向 量 定义 。 这 种 向 量 在 计算 机 里 
面 可 以 用 数组 来 实现 ， 也 可 以 在 关系 型 数据 库 里 用 一 行 记 录 中 的 字段 来 
实现 ， 也 可 以 用 其 他 组 件 来 实现 。 不 管用 哪 种 载体 ， 客 观 上 表示 的 数学 
含义 是 没有 差别 的 ， 差 别 仅仅 在 于 在 处 理 这 些 数 据 时 所 使 用 的 语言 或 者 
工具 不 同 而 已 ， 所 以 完全 不 用 担心 哪些 语言 支持 向 量 哪些 语言 不 支持 。 
下 面 就 是 定义 这 个 向 量 〈 地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 ) 分 别 在 
Python, 、Java、SQL 这 3 种 语言 中 的 写法 。 








(1) 在 Python 中 的 写法 : 





#PYTHON CODING 
class sales: 


zone = '' 

type = '' 

agency = '' 
sales_amount = 0.00 





(2) 在 Java 中 的 写法 : 





#JAVA CODING 
public class sales ( 
public string zone 


public string type 


public string agency: 


public BigDecimal sales amount. 





(3) 在 SQL 中 的 写法 ; 





#SQL CODING 
CREATE TABLE SALES ( 


ZONE VARCHAR ( 


20) 


COMMENT “地 


ES 





TYPE VARCHAR « 


50) 


COMMENT “产品 类 别 


AGENCY VARCHAR ( 


30» 


COMMENT “代理 商 


SALES AMOUNT DECIMAL « 


18, 


3) 


COMMENT “销售 条 





zh 


"3 





这 些 语句 都 是 在 各 种 不 同 语言 上 的 癌 量 定义 语法 。 在 Python 语 言 和 
Java 语 言 里 ， 问 量 的 定义 其 实 束 可 以 理解 成 类 的 定义 ， 同 量 上 每 个 不 同 
的 属性 就 是 不 同 的 维度 ， 一 个 实例 化 的 对 象 就 是 一 个 癌 量 的 实例 。 在 
SQL 语言 里 ， 一 个 表 的 定义 就 是 回 量 的 定义 ， 一 个 同 量 的 实例 其 实 就 是 
表 里 的 一 条 数据 。 

















7.1.1 (FRR 


一 般 来 次 ， 回 量 的 每 个 维度 之 间 是 不 相关 的 ， 在 设计 一 个 同 量 时 也 
是 希望 每 个 维度 不 相关 。 如 果 想 知道 维度 如 果 相 关 会 有 什么 问题 ， 举 一 
个 回 量 设计 上 的 反例 ， 如 在 茶 系 统 里 记录 一 个 个 人 的 信息 。 





问 量 定义 如 下 : 
《姓名 ， 姓 ， 名 ， 出 生日 期 ， 年 龄 ， 要 驶 证 类 别 ， 初 领 加 照 时 间 ， 
驾龄 年 限 ) 


问 量 实例 如 下 : 


(' 张 三 '"，' 张 '，' 三 '"，'1986-03-01'"，30，'C1'，'2015-01-01'，1) 


在 本 例 中 可 以 看 到 ， 从 一 般 的 逻辑 来 说 , “姓名 ”这 个 维度 是 可 以 
由 “ 姓 *”、“ 名 ”两 个 维度 推断 出 来 的 ,，“ 姓 ”和 “名 ”收尾 相 接 束 能 得 到 “ 姓 
名 ”这 个 维度 。 而 “年 龄 ?是 可 以 从 “出 生日 期 > 这 个 维度 推 呆 出 来 的 ， 在 
任意 时 刻 使 用 当前 日 期 与 “出 生日 期 ? 相 减 就 能 得 到 “年 龄 "这 个 维 
度 。“ 驾 龄 年 限 ” 也 是 可 以 通过 “ 初 领 驾照 时 间 ” 推 断 出 来 的 ， 在 任意 时 刻 








使 用 当前 日 期 与 “ 初 领 避 照 时 间 ” 相 减 就 能 得 到 “驾龄 年 限 *。 所 以 这 种 记 
录 方 式 其 实 是 有 元 余 信 息 的 ， 元 余 在 IT 领域 里 一 般 是 指 一 模 一 样 的 数据 
存储 多 于 一 份 的 情况 。 本 例 在 关系 型 数据 库 上 不 满足 设计 第 三 范式 











C3NF， 这 个 概念 如 宁 没 学 过 可 以 忽略 ) 。 对 于 这 种 有 元 余 的 信息 ， 还 
是 一 分 为 二 来 看 ， 不 要 武断 地 说 一 定 不 可 行 。 


元 余 的 问题 是 ， 如 果 其 中 一 个 相关 的 字段 发 生变 化 ， 则 另 一 个 字段 
也 必须 相应 地 做 出 变化 ， 否 则 束 会 出 现 信息 矛盾 或 者 不 一 致 的 现象 。 如 
现在 描述 的 张 三 是 30 岁 ， 明 年 他 就 31 岁 了 ， 是 否 还 需要 一 个 程序 功能 自 
动 或 手动 对 这 个 字段 进行 更 新 ? 如 果 在 系统 运行 过 程 中 发 现在 登记 的 时 
PN 


候 “ 初 领导 照 时 间 ” 这 一 字段 填写 有 误 需要 更 正 ， 那 么 驾龄 年 限 * 也 需要 
同步 修改 。 这 对 于 保持 数据 一 致 性 来 说 ， 维 护 成 本 显然 是 会 提高 的 。 























宛 余 也 未 必 全 是 缺点 没有 一 丝 优 点 。 那 么 它 的 优点 是 什么 昵 ? 再 来 
BP AF 

向 量 定 义 如 下 : 

(用 户 ID，1 月 消费 额 ，2 月 消费 额 ，3 月 消费 额 ，4 月 消费 额 ，5 月 
消费 额 ，6 月 消费 额 ，7 月 消费 额 ，8 月 消费 额 ，9 月 消费 额 ，10 月 消费 
额 ，11 月 消费 额 ，12 月 消费 额 ， 全 年 消费 总 额 ) 


器 量 实例 如 下 : 


('0001', 160, 130, 135, 150, 160, 170, 175, 165, 150, 


155, 155, 160, 1865) 


在 这 个 例子 里 ， 有 一 个 全 年 消费 总 额 用 来 做 前 面 12 个 月 的 消费 额 的 





加 和 。 如 果 这 个 系统 里 有 5000 万 用 户 ， 应 该 怎么 统计 这 5000 万 用 户 一 年 
的 消费 总 额 ? 在 没有 “全 年 消费 总 额 * 这 个 维度 的 情况 下 ， 需 要 让 计算 机 
做 6 亿 个 数值 对 象 的 加 法 (12 次 x5000 万 ) ， 在 有 了 这 个 维度 的 情况 下 ， 
只 需 对 这 5000 万 个 向 量 的 最 后 一 个 维度 一 一 “全 年 消费 总 额 * 做 加 和 ， 即 
做 5000 万 个 数值 对 象 的 加 法 即 可 ， 这 两 者 在 计算 效率 上 有 11 倍 的 速率 差 
距 。 





这 11 倍 速率 的 兰 距 意味 痢 什 么 呢 ? 如 果 这 5000 万 个 回 量 的 计算 需要 
2 人 小时， 那么 这 种 计算 可 以 在 凌晨 进行 ， 并 且 次 日 一 早 做 成 报告 。 而 6 亿 
个 同 量 时 间 计 算 很 可 能 需要 22 小 时 ， 那 么 这 种 报告 驶 只 能 第 三 天 才能 训 
达 。 这 不 仅仅 是 一 个 计算 效率 的 问题 ， 其 至 影响 了 一 个 业务 的 反馈 和 完 


整流 程 。 


至 于 在 具体 的 应 用 场景 里 是 否 使 用 元 余 字 段 需 要 应 用 者 根据 系统 设 
计 的 经 验 和 目 己 的 实际 需求 去 判断 ， 应 选择 在 满足 自己 系统 业务 运转 要 
求 的 前 提 下 “成 本 ”更 低 的 方式 。 


见 余 信息 被 作为 加 快 数据 访问 速度 的 手段 应 用 最 多 的 情况 一 般 不 是 
在 一 个 表 里 设置 见 余 字段 ， 而 是 在 很 多 海量 数据 的 数据 仓库 里 把 很 多 小 
粒度 的 数据 计算 成 为 以 一 天 、 一 周 、 一 个 月 作为 更 大 粒度 统计 单位 的 元 
余 信息 表 或 者 指标 信息 表 ， 而 直接 访问 这 些 大 粒度 的 见 余 数据 ， 比 直接 
访问 最 小 粒度 的 数据 进行 统计 效率 可 能 快 上 几 干 倍 。 














7.1.2 ”维度 





在 解释 向 量 的 过 程 中 其 实 多 次 提 到 了 维度 这 个 词 。 维 度 的 英文 是 
Demension， 人 们 平时 说 的 3D 游 戏 、3D 电 影 中 的 3D 说 的 就 是 3 个 
Demension， 或 者 说 3 个 维度 的 视觉 效果 ， 以 区 别 过 去 玩 的 和 观看 的 平面 
视觉 效果 的 2D 游 戏 和 2D 电 影 。 就 连 80 后 们 最 熟悉 的 FC 游戏 90 坦 克 大 战 
也 能 从 2D 搬 到 3D 空 间 (图 7-21Y)。 


d = UV 





图 7-2 90 坦克 大 战 


维度 指 的 是 参照 系 ， 有 多 少 个 维度 就 有 多 少 个 参照 系 ，2D 就 是 有 
两 个 参照 系 ，3D 就 是 有 3 个 参照 系 。 这 种 说 法 如 果 还 是 觉得 抽象 ， 那 么 
回 过 头 来 看 刚才 的 例子 。 


MBAS alse CER, EA., PERIT, 400000) , ÆA 
地 说 是 有 4 个 维度 〈 地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 ) 。 但 是 仔细 观 


EC EL. FAS BUA RS PER E AS BD. BS ELIT ACEH AE 
化 更 容易 引起 人 们 的 研究 兴趣 ， 因 而 这 类 维度 通常 会 被 当做 研究 对 象 

一 一 虽然 把 它 当 做 一 般 参 考 维度 来 进行 数据 分 析 也 不 一 定 没 有 意义 。 在 
这 个 例子 里 ， 研 究 对 象 是 销售 额 ， 有 3 个 参考 维度 : 地 区 、 产 品类 别 、 

代理 丙 。 后 面 将 会 介绍 这 种 情况 下 怎么 去 做 相关 的 研究 。 








维度 的 设置 一 般 都 是 具有 “ 正 交 性 ”的 。“ 正 交 性 ”是 从 几何 学 中 借用 
来 的 术语 。 如 果 两 条 直线 相交 成 直角 ， 它 们 就 是 正 交 的 。 用 向 量 术语 来 
说 ， 这 两 条 直线 互 不 “依赖 *。 一 个 点 沿 着 某 一 条 直线 移动 ， 该 点 投影 到 
男 一 条 直线 上 的 位 置 始终 不 变 〈 图 7-3) 。 




















以 平面 直角 坐标 系 为 例 ， 其 中 X 轴 和 Y 轴 是 垂直 的 ， 也 是 正 交 的 。 
如 果 有 一 个 点 沿 着 X 轴 移动 ， 不 论 它 怎么 移动 ， 它 到 Y 轴 上 的 投影 都 会 
E C0, 0) 坐标 点 上 ， 同 样 ， 如 果 有 一 个 点 沿 着 Y 轴 移动 ， 不 论 它 怎 么 
移动 ， 它 到 X 轴 上 的 投影 都 会 在 〈0，0) 坐标 点 上 。 在 这 个 坐标 系 里 ， 


X、Y 两 个 维度 就 是 正 交 的 。 





图 7-3 ”两 条 直线 正 交 


就 记 住 这 样 一 个 特点 ， 正 交 向 量 的 任何 一 


不 是 很 好 理解 那 
个 维度 ， 值 发 生变 化 时 都 不 会 引起 其 他 的 维度 的 值 变化 。 看 前 面 举 过 的 


例子 。 
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器 量 定 义 如 下 : 


25 


IEA 
Wx » 


CHE, WE, 4, HAE ASH, 5E 


[H] E SERI AI F: 


CSK—'y UK '=', '1986-03-01', 30, 'C1', '2015-01-01', 1) 


在 这 个 例子 里 ,“ 姓 ?和 "名 ”这 两 个 维度 相互 之 间 是 独立 的 ， 也 就 是 
正 交 的 ,“ 姓 ?不 会 因为 "名 ?变化 而 变化 ,“ 名 ?也 不 会 因为 “" 姓 ?变化 而 变 
化 。 但 是 ,，“ 姓 名 ”是 依赖 于 “ 姓 * 和 “名 ”这 两 个 维度 的 ,，“ 姓 ”和 “名 ”任何 
一 个 发 生变 化 “姓名 ”这 个 维度 的 值 都 会 有 变化 。 





一 般 来 说 ， 回 量 的 设计 推荐 采用 维度 正 交 的 原则 ， 主 要 原因 也 是 为 
了 避免 两 个 非 正 交 维度 不 一 致 时 不 知道 该 采信 哪 种 更 好 。 





[1] 图 片 来 源 于 百度 图 库 。 


7.2 HER ARE ET E 


(GRO) (The Matrix, WAVE GA E WH) 是 一 部 非 
常 精彩 的 科幻 影片 ， 其 英文 名 字 里 的 Matrix 束 是 矩阵 的 意思 。 


之 所 以 电影 会 取 名 为 Matrix 是 取 义 未 来 大 规模 机 器 智能 的 世界 都 是 
以 无 处 不 在 的 大 规模 和 沧 阵 存储 和 大 规模 矩阵 运算 构成 的 ， 和 矩阵 是 其 实现 
的 数学 基础 。 


窍 阵 的 研究 历史 悠久 ， 拉 了 丁 方 阵 和 约 方 在 史前 年 代 已 有 人 研究 。 但 
是 ， 在 19 世 纪 才 真正 成 为 一 种 比较 完整 的 数学 分 学 科 概 仿 。 英 国 数学 家 
珊 利 被 公认 为 矩阵 论 的 莫 基 人 。 他 从 1858 年 开始 ， 发 表 了 《矩阵 论 的 研 
究 报 告 》 等 一 系列 关于 和 矩阵 的 专门 论文 ， 研 究 了 和 窍 阵 的 运算 律 、 和 矩阵 的 
逆 以 及 转 置 和 特征 多 项 式 方 程 。 





矩阵 作为 一 种 独立 的 数据 构建 单元 ， 有 着 目 己 约定 的 矩阵 相 加 、 甜 
阵 相 减 、 抢 阵 数 乘 、 和 窍 阵 转 置 等 完整 计算 旬 辑 。 例 如 : 





OG 05 05 
Ay, 05 05; 
A31 055 034 


O4 0,5 04 


这 里 的 A 就 是 一 个 矩阵 ， 通 种 说 一 个 矩阵 是 mxn 和 矩阵 ， 就 是 说 有 mm 
行 和 n 列 。 在 这 个 例子 里 ，A 是 一 个 4x3 的 矩阵 。 每 个 矩阵 的 元 素 aum 都 
是 一 个 数字 。 像 不 像 二 维 数组 和 数据 库 里 的 表 ? 


矩阵 是 有 着 完整 的 计算 定义 的 ， 常 用 的 矩阵 计算 规则 如 下 。 
1. 和 矩阵 的 加 法 


假设 窍 阵 
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规则 很 简单 ， 就 是 直接 把 对 应 “坐标 ?的 值 相 加 。 请 注意 ， 只 有 这 种 
m 和 nm 分 别 相同 的 两 个 窍 阵 才 能 做 加 法 ， 这 种 m 和 n 分 别 相等 的 两 个 矩阵 
叫做 同型 窍 阵 。 
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假设 窍 阵 
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假设 窍 阵 
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4. 窍 阵 的 转 置 


假设 窍 阵 


心 
ll 
Pae] 
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矩阵 的 转 置 计 算 相 当 于 把 窍 阵 沿 着 对 角 线 翻 了 个 刁 ， 行 变 列 ， 列 变 


。 一 般 习惯 把 矩阵 的 转 置 记 做 AI 。 在 这 个 例子 里 ，B=ATI 。 


5. 和 矩阵 的 内 积 


只 了 解 m=1 和 n=1 这 两 个 矩阵 做 内 积 的 算法 即 可 。 


假设 窍 阵 


A 和 B 的 内 积 : 


在 这 个 例子 里 
C=A*B=1*4+3*"3+5*2+7» 1=30 





WRA, BANERU F: 








HS FY E REP AS AE BE BF INE 762 ATA THE) JURA? 也 是 可 以 
的 ， 这 就 可 以 用 前 面 介绍 的 矩阵 转 置 的 形式 来 表示 。 





ATB 和 BT A 这 两 种 形式 都 会 得 到 30 这 个 结果 ， 因 为 计算 过 程 没有 什 
么 差别 都 是 1x4+3x3+5x2+7x1=30。 


在 高 级 人 工 知 能 里 的 矩阵 运算 使 用 得 极其 复杂 ， 在 入 门 阶段 只 要 了 





AERE AS FER AB. AEREI MERER, MEPER BI Ay. AEA 
面神经 网 络 的 部 分 会 有 的 地 方 有 引用 ， 做 到 心里 有 数 束 好 ， 在 公司 日 第 
指标 运营 里 矩阵 计算 几乎 用 不 到 。 


7.3 数据 立方 体 
常见 的 魔方 是 一 个 3x3x3 大 小 的 方块 ， 也 就 是 以 27 个 小 正方 体 为 音 
位 的 组 合体 。 


想象 一 下 ， 有 27 个 透明 的 立方 体 ， 对 这 27 个 方块 每 一 个 都 做 上 标 
记 ， 如 图 7-4 所 示 。 


代理 商 


单位 : (HJC) 










网 上 商城 DD 


网 上 商城 J 


网 上 商城 


图 7-4 ”标记 27 个 方块 


把 向 量 〈 地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 分 解 一 下 ， 每 一 条 边 
都 写 上 一 个 维度 的 值 ， 每 个 立方 体 中 间 都 写 一 个 数字 ， 再 组 合 起 来 ， 发 
现 原来 的 27 个 向 量 在 立体 空间 里 变 得 非常 直观 。 














如 末 觉 得 数字 不 够 给 人 眼睛 产生 刺激 ， 那 束 试 试 为 一 种 方式 ， 把 数 
字 对 应 的 值 做 一 下 颜色 深度 标识 ， 数 字 大 的 颜色 深 ， 数 字 小 的 颜色 浅 ， 
如 图 7-5 所 示 。 


代理 商 
单位 : (万 元 ) 


网 上 商城 DD 





网 上 商城 J 


网 上 商城 


图 7-5 用 颜色 标记 


颜色 深浅 一 般 的 通常 不 会 引起 人 们 的 注意 ， 最 吸引 人 注意 的 其 实 是 
那些 颜色 特别 深 的 和 颜色 特别 浅 的 。 其 实 也 不 难 理解 ， 在 一 群 人 里 ， 比 
较 引 人 注意 的 是 什么 样 的 人 呢 ? 个 子 特别 高 的 ， 个 子 特别 矮 的 ， 长 得 特 


别 漂 亮 的 ， 长 得 特别 丑 的 ， 长 得 特别 胖 的 ， 长 得 特别 瘦 的 。 也 就 是 说 ， 
吸引 人 注意 的 一 定 是 和 众多 样本 相去 较 远 的 样本 ， 而 比较 “平庸 ”的 样本 
通常 不 太 引 人 注意 。 





上 述 数 据 “ 麻 方 ”就 是 数据 立方 体 ， 是 一 种 比较 直观 的 大 数据 可 视 化 
技术 ， 它 能 够 帮助 人 们 在 一 个 研究 对 象 和 3 个 维度 (及 以 下 ) 的 情况 下 
快速 找到 让 人 感 兴趣 的 那些 小 数据 卖 ， 快 速 定位 “问题 * 所 在 。 从 例子 里 
容易 看 出 来 什么 地 区 、 什 么 产品 类 别 、 什 么 代理 丙 的 销售 额度 格外 高 或 
者 格外 低 ， 在 同一 个 地 区 同一 个 产品 类 别 里 ， 哪 个 代理 商 销 售 的 额度 格 
外 高 或 者 格外 低 。 


但 是 ， 一 个 向 量 可 能 不 止 有 3 个 维度 而 且 每 个 维度 里 只 有 3 个 枚 举 
值 ， 有 的 维度 可 能 有 几 十 个 甚至 上 百 个 枚 举 值 ， 这 时 立方 体会 变 得 很 复 
林 。 要 想 看 得 比较 细致 就 只 能 做 切片 处 理 ， 如 图 7-6 所 示 。 





需要 强调 的 是 ， 数 据 立 方 体 这 种 视角 在 一 些 商业 BI 软件 里 提供 了 很 
好 的 互动 碍 询 工具 ， 但 是 很 多 目 研 发 的 企业 BI 部 门 可 能 就 需要 上 自己 再 去 
摸索 这 种 视图 如 何 开 发 了 。 





单位 
: (AI) 


网 上 商城 
D 





图 7-6 WH 


74 上 卷 和 下 钻 





数据 立方 体 帮助 人 们 快速 定位 “问题 ">。 但 是 数据 立方 体 还 有 一 个 问 
就 是 一 下 子 展开 这 么 多 维度 值 会 让 人 眼花 综 乱 。 


E 


目前 人 类 通过 研究 发 现 ， 人 类 自身 的 机 械 记 忆 极 限 是 5~9 个 对 象 ， 
也 就 是 说 正常 情况 下 人 记 住 5 个 毫 无 关联 的 对 象 是 没 问题 的 ， 记 忆 好 一 
些 的 可 以 记 住 9 个 ， 只 有 经 过 特殊 训练 的 人 可 能 用 其 他 技巧 能 够 记 住 更 
多 。 多 于 9 个 的 对 象 常人 就 很 难 记得 清楚 了 ， 也 很 难 一 下 子 掌握 。 那 么 
能 否 用 逐 层 递 进 的 方式 对 数据 立方 体 进行 归纳 式 的 管理 呢 ? 答案 是 肯定 
。 这 就 是 将 要 介绍 的 上 卷 (Rollup) 和 下 钻 (Drilldown) 。 





cm 


在 一 个 视图 下 , “ 疝 下 钻 入 ”一 个 立方 体 时 可 以 看 到 更 多 的 细节 ， 而 
当 人 们 对 当前 的 视图 不 再 有 兴趣 需要 回 退 到 上 一 级 别 的 视图 时 ， 可 以 把 
当前 视图 “向 上 卷 起 ”如 图 7-7 所 示 。 这 样 在 每 个 视图 中 都 能 在 有 限 的 
研究 对 象 里 较 快 定位 到 “问题 ?所 在 ， 这 就 是 上 卷 和 下 钻 两 种 操作 的 应 
用 。 








单位 : (万 元 ) 








三 月 份 
二 月 份 
Ht 
aUe n 
图 7-7 EXER Rh CUL 
当然 ， 数 据 立 方 体 的 局 限 性 也 是 很 明显 的 ， 即 如 果 问 量 更 多 超 





过 3 个 维度 ， 就 无 法 在 空间 里 画 出 一 个 立方 体 进行 呈现 了 ， 而 数据 挖掘 
很 多 时 候 研究 的 数据 远 远 比 3 个 维度 要 多 ， 所 以 在 高 维度 数据 的 研究 
中 ， 虽 然 数据 立方 体 的 馆 辑 客观 存在 ， 但 是 在 对 其 进行 数据 挖 握 和 机 器 
学 习 的 过 程 中 基本 用 不 到 数据 立方 体 的 可 视 化 技术 。 读 者 在 实现 的 时 候 
请 酌情 进行 视图 选择 。 





T5 ”小 结 














关于 多 维 向 量 空间 ， 只 要 掌握 向 量 的 定义 、 维 度 的 定义 即 可 。 至 于 
正 交 维度 ， 请 读者 注意 在 日 常生 产生 活 中 的 设计 技巧 。 





第 8 章 ”回归 


回归 是 一 种 解 题 方法 ， 或 者 说 “学 习 ” 方 法， 也 是 机 器 学 习 中 比较 重 
要 的 概念 。 没 有 学 过 回归 的 朋友 可 能 看 到 回归 这 个 词 猜 不 出 这 是 个 什么 
概念 ， 沉 得 很 神秘 。 其 实 我 平生 第 一 次 看 到 这 个 词 的 时 候 也 猜 不 出 是 干 
什么 用 的 , “回归 ? .…… 回 哪儿 去 ? ” 





回归 的 英文 是 Regression， 单 词 原 型 的 regress 大 概 的 意思 是 “ 回 退 ， 
回归 分 析 的 意思 借用 了 “倒退 ， 倒 
推 " 的 含义 。 简 单 说 惑 是 “由 果 索 因 ” 的 过 程 ， 古 一 种 归纳 的 思想 一 一 当 
看 到 大 量 的 事实 所 呈现 的 样 态 ， 推 类 出 原因 是 如 何 的 ; 当 看 到 大 量 的 数 
字 对 〈pair) 是 某 种 样 态 ， 推 断 出 它们 之 间 缠 含 的 关系 是 如 何 的 。 





退化 ， 倒 退 ”。 其 实 Regression 





8.1. 线性 回归 
线性 回归 是 利用 数理 统计 学 中 的 回归 分 析 来 确定 两 种 或 两 种 以 上 变 
量 间 相互 依赖 的 定量 关系 的 一 种 统计 分 析 方 法 。 其 表达 形式 如 下 : 
y=ax+b+e 
e 为 误差 服从 均值 为 0 的 正 态 分 布 。 
简单 说 大 概 是 这 样 ， 通 过 统计 或 者 实验 ， 可 能 会 得 到 两 种 值 ( 两 个 


系列 的 值 ) 的 对 应 关系 ， 这 两 种 值 一 种 是 y 一 种 是 x， 每 组 y 和 x 是 成 对 出 
现 的 一 一 对 应 ， 最 后 可 以 用 一 种 y=ax+b+e 的 表达 式 来 表示 它们 的 关系 。 








而 这 其 中 的 e 不 是 一 个 定 值 ， 它 和 y、x 对 应 着 出 现 (有 一 对 y 和 xXx， 
就 有 一 个 e) 。 这 个 e 的 值 满足 正 态 分 布 ，p 为 0。 





有 人 说 还 是 y=ax+b 看 着 比较 舒服 ，a 是 和 斜率，b 是 截 距 ， 初 中 时 大 家 
都 学 过 。 但 是 y=ax+b+e 看 着 别扭 ， 我 们 后 面 来 说 说 这 个 e 是 怎么 出 来 
的 。 





下 面 看 一 个 完整 的 操作 过 程 。 
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回归 这 种 方法 我 们 在 中 学 读本 里 是 没有 讲 过 的 ， 但 是 他 的 思想 我 们 
可 是 早 在 高 中 一 年 级 的 时 候 物 理 课 上 就 学 过 的 ， 只 是 我 们 没 意 识 到 。 











回忆 一 下 ， 还 记得 高 中 的 时 候 学 过 一 个 用 打点 计时 器 计算 重力 加 速 
度 g 的 大 小 的 实验 吗 ? 


将 一 个 小 铁 球 用 一 根 线 挫 在 一 个 很 轻 的 小 车 上 ， 小 车 后 面 拉 着 一 根 
长 长 的 有 毫米 刻度 的 纸 带 ， 一 个 打点 计时 器 一 边 电源 接着 220V 50Hz 的 
市 电 ， 有 一 根 圆珠笔 尖 悬 在 纸 带 上 方 ， 如 图 8-110 pra. 


电磁 打点 





图 8-1 用 打点 计时 器 计算 重力 加 速度 


当 接 通电 源 后 ， 小 铁 球 由 于 重力 作用 开始 做 目 由 落体 的 运动 ， 同 时 
拉 着 小 车 越 跑 越 快 ， 后 面 纸 市 上 圆珠笔 尖 会 以 每 秒 50 次 的 速度 不 停 打 
扩 ， 这 样 在 纸 禹 上 留 下 许多 的 点 ， 每 个 点 之 间 的 距离 会 越 来 越 大 ， 每 个 


相 邻 点 之 间 的 打点 时 间 差 为 0.02s， 如 图 8-2 "7! 所 示 。 





图 8-2 打出 的 点 


这 个 实验 的 先决 条 件 是 牛顿 第 二 定律 : 


F=ma 





F 古 物体 受到 的 外 力 大 小 ，m 是 物体 的 质量 ，a 是 产生 的 加 速度 。 由 
于 在 重力 的 作用 下 ， 所 以 


G-mg 





G 是 物体 所 受 重 力 ，m 是 物体 质量 ，g 是 重力 加 速度 ， 也 就 是 要 求 的 


我 们 现在 手 里 得 到 什么 了 ? 是 一 个 位 移 的 记录 ， 即 纸 融 。 

在 处 理 数据 的 时 候 我 们 用 了 一 个 技巧 ， 即 计算 每 个 点 之 间 的 间隔 
As As Asx As, 

So 就 是 bg At, 两 个 时 刻 所 打点 的 位 移 差 距 。 


位 移 s 和 时 间 t 的 关系 是 什么 呢 ? 我 们 都 知道 : 


S=vit 


速度 乘 以 时 间 就 是 位 移 ， 比 如 我 骑 自 行车 一 秒 钟 跑 10 米 ， 那 10 秒 钟 
就 跑 100 米 ， 这 个 对 于 匀速 运动 肯定 没 错 。 





v=f CO 示意 图 如 图 8-3 所 示 ， 横 坐标 轴 为 t， 纵 坐标 轴 为 v。 当 然 只 
有 t 大 于 0 的 部 分 是 有 意义 的 ， 如 果 想 知道 当 t=30 时 ，s 为 多 少 ， 只 需要 在 
t=30 的 位 置 把 这 个 图 形 切 开 ， 求 t 为 从 0 到 30，v=10 的 长 方形 面积 即 可 


(s=vt) 。 














如 果 运 动 速度 是 不 均匀 的 怎么 办 呢 ? 可 以 用 积分 的 方法 : 
s [ro -dt 


其 中 v (t) 是 一 个 v=f CO 的 函数 ， 是 一 个 变化 的 v 和 对 应 时 间 t 的 


关系 ， 后 面 的 dt 是 At 的 概念 ， 也 会 有 人 习惯 地 写成 这 种 形式 : 


iy |s v(x)-dx 





SEA BAA NERIS A EMs PR HY PRL, TE RE 
中 s 是 由 这 一 刻 瞬间 的 速度 v(t) 和 了 瞬间 的 时 间 长 度 dt〈At) 相 乘 而 来 
的 。 听 起 来 好 像 是 所 有 的 值 都 在 变化 很 难 把 握 ， 读 者 先 别 居 神 ， 往 下 
看 。 


在 这 里 先 讲 一 个 小 故事 。 


德国 著名 的 教学 家 、 物 理学 家 波恩 哈 德 : 歼 曼 图 8-4 1 发 明了 一 种 很 
有 名 的 丈量 方法 一 一 “ 黎 曼 和 ”。 这 个 思想 很 简单 ， 大 概 如 下 。 








图 8-4 idu. Ae E 
要 求 一 块 不 规则 形状 的 土地 的 面积 ， 怎 么 办 ? 


把 它 划 分 成 很 多 小 长 方形 ， 每 个 小 长 方形 的 面积 都 可 以 比较 容易 用 
长 乘 以 宽 的 方式 求 出 来 ， 然 后 再 加 到 一 起 ， 就 能 算出 整个 不 规则 土地 的 
面积 了 。 这 里 有 误差 怎么 办 ? 可 以 尽量 把 长 方形 画 窜 一 些 ， 越 罕 ， 面 积 
和 越 逼近 “真实 ”的 土地 面积 ， 只 要 这 个 误差 到 达 人 允许 的 范围 内 ， 那 这 个 
面积 和 基本 就 是 押 要 求 的 面积 ， 如 图 8-5 所 示 。 这 个 方法 可 不 土 ， 人 家 
实际 上 用 的 可 是 正经 是 微 积分 的 思想 哟 。 


TUI" 


图 8-5 ”和 歼 曼 和 示意 图 














再 回 到 刚刚 的 问题 s=vt， 这 其 实 也 是 一 个 面积 公式 ，t 是 宽度 ，v 是 








只 是 v 这 个 高 度 是 变化 的 。 匀 速 的 时 候 v 是 一 个 定 值 ， 算 出 来 是 


这 就 是 一 个 黎 曼 和 求 和 的 过 程 。 


mE, 


个 长 方形 面积 ， 


男 外 ， 有 公式 
v=v,tgt 


其 中 由 于 一 开始 小 球 和 车 是 静止 的 ， 所 以 vo =0 是 知道 的 。 那 么 
v=gt 


成 立 ， 而 且 有 


gt 


ç = 


to | 一 


这 样 求 位 移 的 方法 成 了 求 三 角形 面积 的 方法 了 。 如 图 8-6 所 示 ， 
10s、20s、30s、40s、50s 时 所 产生 的 位 移 就 是 此 时 的 t 刻 度 纵 线 与 轴 以 


及 函数 曲线 v=vo +gt 所 围 成 的 面积 。 
图 8-6 所 为 v=vo +gt 函 数 图 线 ， 当 然 ， 也 只 是 t 大 于 零 的 部 分 才 有 效 。 


AS 一 S1 一 30 
=(1/2) x g x (vgtgfi) x t;-(1/2) x g x (vot Bho) x ti 
-(1/2) x g x (t,-t,) 
=(1/2) x g x (tj*t9)(t,—1,) 
-(1/2) x gx At x (titto) 
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图 8-6 ”v=v0+gt 函 数 图 线 


以 此 类 推 


A $175$5—5814 


=(1/2)x gx At x (t,+t,) 


=(1/2)x gx At x (titt,) 


As,=s 


n+ 


-(1/2) X g X A [X (ratta) 


1 Sn 





也 就 是 说 ， 每 两 个 临近 的 反之 间 的 距离 都 可 以 用 这 个 公式 来 套 算 ， 
因为 这 个 公式 本 里 束 是 计算 位 移 差 的 公式 。 





如 果 把 临近 的 位 移 差 做 减法 会 得 到 什么 呢 ? 
As,— As =(1/2) xgx Atx(t5*t)- (1/2) xg x Atx(tytt;) 
=(1/2) xg x At x (t5— ty) 
-gAf 
As—As,7-(12)xgx Atx (ith) (1/2) xg x Atx (ttt) 
-(1/2) xg x At x (f— t) 
-gAf 


所 有 临近 的 两 个 点 之 间 的 距离 之 差 为 一 个 确定 的 数字 ， 就 是 gAt ， 
g 和 At 都 是 定 值 ， 只 是 现在 还 假装 不 知道 g 的 具体 大 小 。 那 下 面 也 就 更 好 
办 了 ， 把 每 个 临近 的 距离 差 都 列 出 来 ， 平 均一 下 束 能 得 到 gAt 的 大 小 ， 
再 除 以 At， 就 可 以 得 到 g。 














THEO XU PT ORUBUSHBS EUER] FH 2E TEUSR SR FE BP AIT HR 
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为 了 尺 可 能 减 小 误差 。 

还 可 以 用 v-t 图 法 进行 绘图 。 有 瞬时 速度 公式 


y—votgt—gf 


"S t n 


尝试 一 下 能 不 能 从 最 直观 量 取 到 的 位 移 s 的 差 值 得 到 和 v 有 关 的 公式 
描述 : 
As,+As = (1/2)x gx Atx (t,+t,)+ (I2) x gx Atx (t,t) 
= (1/2)x gx Atx (tttittitto) 
= (1/2)x gx Atx (At+ttt,44,41,-Ad) 
—(1/2xgx4x Atxt 


—2xgx Atxt, 
类 推 一 下 : 


As,+As, 1 二 2 X gx A [X [, 
( A Sy A RN A t E X I Va 








这 里 的 w tgo ez n1 0.025 B] PEST 5E n] PA ECOLE DU 8 E 
REK, Av, 上 是 可 以 直接 得 到 n 和 v 的 对 应 关系 的 。 如 图 8-7 ^! 所 示 ， 
在 坐标 纸 上 男 一 条 直线 穿 过 这 些 点 。 








40 


50 


Velocity (m/sec) 


Acceleration-9.76m/s* 





Time (sec) 


图 8-7 vat A Rz es A 


图 8-7 中 的 散 扣 用 一 条 和 直线 连接 ， 束 可 以 得 到 一 个 比较 粗糙 的 v=gt 的 
函数 ， 和 斜率 就 是 g， 直 接 测 量 即 可 得 出 。 








这 种 从 大 量 的 函数 结果 和 目 变量 反 推 回 图 数 表 达 式 的 过 程 就 是 回 


归 。 刚 才 用 的 是 划 线 穿 点 的 方法 来 求 一 个 粗略 的 v=gt。 这 种 思路 本 刁 就 
是 使 用 线性 回归 的 方法 。 


假设 最 后 得 到 的 数值 如 表 8-1 所 示 。 


表 8-1 nfllv, 的 数值 











试 着 用 Python 编 程 ， 用 线性 回归 的 方法 实现 这 个 例子 : 





import numpy as np 
import matplotlib.pyplot as plt 
# 原 始 数 据 


y = [0.199. 


0.389, 


0.580, 


0.783, 


0.980, 


1.177, 


1.380, 


1.575, 


1.771] 
A = np.vstack < 


[x. 

np.ones ( 
len < 

xX) ) 

p 

T 

# A: 

#[[ 1. 1.] 
# [ 2. 1.] 
# [ 3. 1.] 
# [ 4. 1.] 
# [ 5. 1.] 
# [ 6. 1.] 
# [ 7. 1.] 
# [ 8. 1.] 
#09. 1.]] 
Fi A ie) — FOE ERG 


b = np.linalg.lstsq: 


y) 


[0] 
# 转 换 成 


numpy array 
x = np.array < 


X) 


y = np.array ¢ 


plt.plot < 


label-'Original data', 


markersize-10» 


plt.plot.: 


a* x +b, 


Vet. 


label-'Fitted line'» 


plt.show © 


画 出 的 图 形 如 图 8-8 所 示 。 





回归 在 数据 挖掘 算法 里 也 有 着 举足轻重 的 地 位 ， 在 R 语 言 里 ， 在 
Mahout 等 开源 数据 挖掘 框架 里 都 有 比较 好 的 支持 。 如 果 读 者 有 兴趣 ， 可 
以 再 找 R 语 言 的 环境 或 者 Mahout 做 一 下 实验 。 











刚刚 在 打点 计时 费 的 实验 里 用 直线 穿 过 众多 散 点 的 方式 可 以 得 到 一 
个 比较 粗糙 的 v=gt 的 函数 。 说 它 粗 米 的 原因 很 镜 单 ， 因 为 这 条 线 是 根据 
打点 记录 的 位 移 来 男 的 ， 小 车 轮子 是 人 否 光 请 ， 小 车 目 重 是 不 是 比较 大 ， 
市 电 是 不 是 标准 的 50Hz， 以 及 空气 阻力 大 小 如 何等 因素 都 会 影响 打点 的 
准确 性 。 这 些 因 系 也 会 导致 no 和 v, 的 比率 在 每 个 打点 瞬间 记录 的 不 稳 
定 ， 或 比 理 想 值 大 或 比 理 想 值 小 。 而 且 在 画 这 条 直线 穿 过 这 些 点 时 也 可 
能 会 画 不 准 ， 可 能 会 有 几 种 男 法 ， 每 种 画 法 在 手法 上 略 有 偶 关 而 画 出 来 
都 能 从 中 间 穿 过 去 ， 且 都 不 能 算 错 。 不 只 在 这 个 例子 里 ， 再 换 任 何 一 个 
场景 ， 通 过 统计 或 实验 产生 的 这 样 一 组 对 应 关系 同样 都 会 有 类 似 的 问 
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图 8-8 画 出 的 图 形 


这 种 把 平面 上 一 系列 的 点 用 一 条 光滑 的 曲线 连接 起 来 的 过 程 就 叫做 
拟 合 一 一 刚刚 用 一 条 函数 曲线 v=gt 来 进行 了 拟 合 。 而 多 种 拟 合 方法 究竟 
哪 一 种 画 法 最 科学 呢 ? 下 面 将 介绍 分 析 的 方法 ， 即 残 差 分 析 。 


[1] 图 片 来 源 于 百度 图 库 。 
[2] 图 片 来 源 于 百度 图 库 。 
[3] 图 片 来 源 于 百度 图 库 。 
[4] 图 片 来 源 于 百度 图 库 。 


8.3 FRA AT 


刚刚 已 经 尝试 着 做 过 拟 合 这 个 过 程 了 ， 在 前 面 提 到 过 ， 在 线性 回归 
中 希望 最 终 得 到 一 个 函数 y=ax+b+te 来 表示 y 和 x 的 关系 。 


从 前 面 的 打 扣 计时 器 的 例子 来 看 ， 从 理论 上 推定 v=gt， 而 在 实验 中 
产生 的 其 实 是 一 个 不 太 准 确 的 函数 v=gt+e， MM MEA 
是 因为 vo 是 0。 那 问题 就 转化 为 ，g 完 竟 取 多 少 才 能 让 e 最 小 呢 ? 这 个 过 
程 就 是 残 差分 析 ， 而 最 终 得 到 的 结果 就 是 要 计算 出 一 个 g， 使 得 e 为 误差 
服从 均值 为 0 的 正 态 分 布 。 定 性 地 说 就 是 在 拟 合 的 过 程 中 ， 每 一 个 点 所 
产生 的 误 关 e 大 部 分 在 0 附近 ， 而 越 远 离 0 误 兰 的 e 越 少 越 好 。 














有 一 种 非常 经 典 的 用 来 进行 线性 回归 中 的 系数 猜测 的 方法 
二 乘法 。 推 导 过 程 对 于 没有 学 过 微 积分 的 读者 可 能 会 比较 复杂 ， 下 面 只 
简单 介绍 原理 。 


最 小 


假设 有 多 个 x 和 y 的 样本 值 ， 同 时 尝试 用 y=ax+b+e 来 拟 合 ， 可 以 得 到 
e|l-|axtb—y 


TL V AK) SE RE AEE axe b A EL AP Ey fL ZZ TRT ES] Ze 
值 。 试 着 把 所 有 的 el 都 求 和 。 构 造 一 个 函数 : 


O= * (ax, - b— y,Y 
il 


Q 指 根据 每 一 组 样本 里 的 x 拟 合 得 到 的 y《〈 也 惑 是 axz+b) 和 观察 到 的 
样本 里 的 y 都 做 一 个 差 ， 把 差 平方 后 求 和 。Q 就 是 每 一 个 lej* 的 和 ， 现 在 
的 问题 转化 为 让 a 和 b 分 别 等 于 什么 值 时 Q 最 小 《也 就 是 所 有 的 lel 的 加 和 





最 小 ) 。 


BẸ 











这 两 个 表达 式 的 数学 含义 是 ，Q 是 一 个 a 和 b 作 为 目 变量 的 二 元 函 
数 ，Q 分 别 对 a 和 b 求 偶 微 分 ， 满 足 每 个 偶 微 分 方程 为 0 的 a、b 变 量 的 值 就 


征 要 找 的 值 。 


如 二 元 一 次 方程 组 
y=ax+bx+c 





| | bY hin | 
xps p : 
| 4q^ 


y 的 极 值 为 x=b/2a 时 的 值 。 





这 里 面 其 实 没有 用 到 高 等 数学 里 求 导 数 的 概念 ， 只 是 用 了 算数 平方 
和 大 于 等 于 零 的 性 质 来 确定 极 值 的 位 置 ， 当 平方 项 为 0 时 ，y 一 定 是 极 
值 ， 有 
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ôa ao 表示 函 数 Q 对 目 变 量 a 求 导 ， 它 的 结果 又 是 一 个 函数 ， 而 这 个 新 
函数 称 为 导 函 数 ， 简 称 导 数 。 一 般 来 说 ， 导 数 里 面 还 是 会 由 a 作 为 目 变 
量 的 ， 而 导数 的 函数 值 束 是 Q 这 个 函数 在 a 点 上 的 切线 斜率 (本 例 不 考虑 
不 可 寻 的 情况 ) 。 可 以 想象 ，Q 是 一 个 曲线 函数 ， 既 然 是 曲线 ， 在 每 个 
点 上 就 有 切线 ， 让 切线 随 痢 Q 函 数 的 曲线 滑动 ， ANS MEE 


b 4ac — P? 


化 ， 而 Q 函 数 的 极 值 应 该 在 切线 斜率 为 0 外 ， 如 “|b 2a) 4e me 
子 中 的 极限 值 位 置 。 切 线 应 该 是 一 条 水 平 线 。 





如 图 8-9 所 示 ，AB 直 线 从 左 疝 右 紧 贴 着 y=x? 曲线 滑动 ， 让 切 点 一 直 
沿 着 y=x? 曲线 从 小 到 大 变化 。 MEM LUUD UN (x 
AD 的 位 置 。 二 维 空间 的 曲线 是 这 样 ， 三 维 空间 的 切线 通常 是 沿 着 曲面 
方 的 x 轴 和 y 轴 的 方向 作 的 ， 如 图 8-10 所 示 为 z=x? +y2 的 图 像 ， 先 做 一 个 
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上 的 二 维 曲 线 方程 涓 动 ， 找 到 斜率 为 0 的 地 方 。 这 也 就 是 aa Ma 各 上 自 的 
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图 8-9 求 曲线 上 和 斜率 为 0 的 地 方 


20 20 
Wea =0， 且 aw =0， 解 出 这 两 个 方程 之 后 就 能 分 别 找到 a 的 取 值 能 


让 Q 产 生 极 值 的 条 件 ， 以 及 b 的 取 值 能 让 Q 产 生 极 值 的 条 件 ， 即 找到 了 
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分 别 求 导 后 : 





2 i=l 


XO n 


= 2> [5 (ax, - b — y,)] 2 0 


n 





= Ly; (ax, -b — y,) -0 
il 


b 


找 满 足 上 式 的 a 和 b 的 取 值 。Q 是 一 个 误差 的 平方 和 ，a 和 b 是 斜率 和 
堆 距 ， 现 在 要 能 找到 一 个 极 值 必定 是 一 个 使 Q 最 小 的 极 值 。 证 明 略 ， 读 





者 可 以 想像 用 直线 在 纸 上 罕 点 的 过 程 ， 谨 小 慎 微 地 罕 能 找到 一 个 误差 最 
小 的 点 ， 稍 微 俩 一 侦 这 个 误 兰 束 很 大 ， 而 且 越 偶 越 大 ， 那 么 这 个 大 的 极 
值 点 是 不 存在 的 ， 小 的 极 值 点 是 存在 的 ， 也 就 是 要 求解 的 点 。 
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图 8-10 z=x° +y? 的 图 像 〈 见 彩 插 ) 


SEXE A 为 十 求 启 i j A AE BE y x (ax - b — y, 
ty ; \ 知 道 大 人 从 Dx fr 4n Z 1 到 | ĝa 22 "t i b n p] 和 
6Q 


a APN) a oe DS RAGE BG, BERR RT BER 
结果 ， 根 据 上 述 得 到 的 求 导 之 后 得 0 的 两 个 等 式 可 以 把 公式 展开 推导 出 





n n n 
d Ki T by = 2,» 


SE oe gor, 把 a 和 b 作 为 系数 提出 去 之 后 的 结果 。 








同 理 
$2 5 HI = 2, 
eO _ 
xo 展开， 把 a 和 b 作 为 系数 提出 去 之 后 的 结果 。 
这 样 得 到 一 个 方程 组 


n á n n 
aX x; + b x, = yx, 
i=l i=] i=l 
n n 
a» x, + Nb = >y; 
i=l i=l 


把 (2) 式 做 如 下 处 理 : 


X. 


i 


O 


得 到 下 面 的 等 式 : 


- ] X 
= i=l 
a 一 n n 
352 
i=l i=l _ € 
n i=l 
n n 
-= 
b = j=1 i=l 
n 
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上 上 式 中 ， 把 所 有 的 观测 值 x 和 y 都 代入 ， 殊 可 以 得 出 a;， 再 把 观测 值 
和 已 经 求 出 的 a 代 入 下 式 ， 就 可 以 相应 得 出 b。 





在 Python 中 ， 有 一 些 框架 可 以 直接 使 用 最 小 二 乘法 进行 线性 拟 合 。 
例如 : 





import numpy as n 
import matplotlib.pyplot as plt 
# 原 始 数 据 


0.580, 


0.783, 


0.980, 


1.177. 


1.380, 


1.575, 


1.771] 
t1-t2-t3-t4-0 
n - len« 





x) 


for i in range < 


n): 


t1 += y[i] #5 
y 

t2 += x[i] 7 
x 

t3 += x[i]*y[i] 47 
Xy 

t4 += x[i]**2 #5 
xA2 
a= ( 


ti*t2/n - t3) 


t2*t2/n - t4) 


t1 - a*t2 


/n 
x = np.array < 


X) 


y = np.array 


y) 


plt.plot < 


label-'Original data'. 


markersize-10» 


plt.plot.: 


label-'Fitted line'» 


plt.show © 


过 拟 合 简称 “过 拟 ”， 是 在 拟 合 过 程 中 出 现 的 一 种 “做 过 头 ” 的 情况 。 





怎么 叫做 过 头 呢 ? 我 们 通过 对 数据 样本 的 观察 和 抽象 ， 最 后 归纳 得 
到 一 个 完整 的 数据 映射 模型 。 但 是 在 归纳 的 过 程 中 ， 可 能 为 了 迎合 所 有 
样本 向 量 点 甚至 是 噪声 点 而 使 得 模型 描述 过 于 复杂 。 





过 度 拟 合 的 危害 有 以 下 几 点 。 


(1) 描述 复杂 。 所 有 的 过 度 拟 合 的 模型 都 有 一 个 共同 点 ， 那 束 是 
模型 的 描述 非常 复杂 一 一 参数 楷 多 ， 计 算 馆 辑 多 。 





(2) 失去 泛 化 能 力 。 所 谓 泛 化 能 力 就 是 通过 学 习 《 或 机 器 学 习 ) 
得 到 的 模型 对 未 知 数据 的 预测 能 力 ， 即 应 用 于 其 他 非 训练 样本 的 向 量 时 
的 分 类 能 力 。 对 于 竺 分 类 样本 问 量 分 类 正确 度 高 ， 表 示 泛 化 能 力 比 较 
好 ; 有 反之， 如果 对 于 待 分 类 样本 向 量 分 类 正确 度 低 ， 则 表示 泛 化 能 力 较 
Fo 








我 们 通常 希望 模型 的 泛 化 能 力 是 比较 好 的 ， 因 为 没有 泛 化 能 力 的 模 
型 对 于 生产 指导 基本 没有 什么 意义 。 








造成 过 拟 合 的 原因 比较 多 ， 最 津 见 的 是 以 下 两 种 。 


D 训练 样本 太 少 。 对 于 训练 样本 过 少 的 情况 ， 通 常 都 会 归纳 出 
一 个 非常 不 准确 的 模型 。 例 如 ， 要 通过 样本 统计 的 方式 来 进行 疾病 成 因 
总 结 ， 只 有 一 个 病例 时 ， 这 一 个 病例 目 身 的 个 案 特 点 很 可 能 会 被 当成 通 
用 性 的 特点 ， 这 样 总 结 出 来 的 模型 显然 没有 泛 化 能 力 。 而 样本 多 时 就 可 
以 通过 统计 分 析 保 留 那些 共性 较 多 的 特点 ， 而 共性 较 少 的 特点 就 是 我 们 
所 说 的 噪声 一 一 就 不 会 被 当做 分 类 参数 。 





(2) 力求 “完美 ”。 对 于 所 有 的 训练 样本 向 量 点 都 希望 用 拟 合 的 模 
型 覆 凋 ， 但 是 实际 上 的 训练 样本 却 有 很 多 是 带 有 噪声 的 。 这 里 说 的 噪声 
不 是 指 刺耳 的 破坏 心情 的 声 啊 ， 而 是 在 收集 到 的 训练 数据 中 由 于 各 种 原 
因 导 致 的 与 预期 分 类 不 一 致 的 样本 癌 量 。 














如 上 述 打 点 过 程 中 ， 小 车 轮子 的 摩 探 不 均 义 ， 纸 张 粗糙 程度 不 同 ， 
导致 某 些 点 打出 来 比 理想 时 间 要 晚 ， 或 比 理 想 时 间 要 早 ， 当 偏差 比 我 们 
预期 大 很 多 时 就 可 以 认为 该 点 是 噪声 点 了 。 











再 如 ， 如 果 想 测量 两 地 之 间 的 平均 行车 时 间 ， 选 100 辆 汽车 加 装 计 
时 设备 进行 测试 ， 所 有 车辆 从 A 地 出 发 前 往 B 地 。 其 中 97 辆 车 计时 设备 
读数 都 是 20~22 分 钟 ， 有 1 辆 车 由 于 超速 行驶 计时 设备 读数 为 15 分 钟 ， 有 
1 辆 车 由 于 车 辆 故障 中 途 抛 销 计 时 设备 读数 300 分 钟 ， 有 1 辆 车 由 于 瑟 记 
开启 计时 器 计时 设备 读数 0 分 钟 。 在 这 个 例子 中 ， 基 本 可 以 判断 A 地 到 B 
地 行车 时 间 为 21 分 钟 左 右 ， 而 后 面 的 3 个 数据 : 15 分 钟 、300 分 钟 和 0 分 
钟 就 是 典型 的 噪声 数据 了 ， 完 全 可 以 在 建 模 的 过 程 中 舍弃 。 


如 果 穷 尽 所 有 的 办 法 都 没 办 法 舍弃 这 些 噪声 点 而 又 力 求 让 模型 描述 
履 产 这 些 点 ， 那 将 是 非 第 可 怕 的 ， 归 纳 出 来 的 模型 会 产生 很 大 的 偏差 。 





在 上 述 残 差分 析 中 ， 演 试 着 将 误差 e 这 个 部 分 做 成 一 个 以 0 为 中 心 的 
正 态 分 布 。 如 果 希 望 这 个 正 态 分 布 中 o 小 一 些 ， 甚 至 为 0。 在 这 个 过 程 中 
会 出 现 什 么 现象 ? 











首先 ， 在 分 析 的 过 程 中 已 经 尝试 着 用 最 小 二 乘法 确定 系数 ， 这 种 情 
况 已 经 比 胡 乱 确 定 任何 一 个 系数 要 合理 得 多 ， 因 为 大 部 分 情况 下 误差 都 
很 小 。 


误差 为 0 的 这 种 极限 是 什么 呢 ?” 其 实 是 类 似 分 段 函 数 ， 以 上 述 打 扣 
计时 器 为 例 : 
9$,-0.078, n-l 
v,70.100, n=2 
v,—0.118, n=3 


v,70.290, n=12 


FIA HR ELPA EE RE Aa ie Ala, SGH v-gt 
并 不 是 一 个 离散 函数 ，t 是 一 个 在 非 负 实数 上 连续 的 自 变 量 ， 难 道 有 任 
何 办 法 罗列 出 所 有 的 值 吗 ? 当然 不 可 能 ， 甚 至 连 实验 得 到 的 数据 内容 都 
是 有 限 的 。 








在 多 元 线性 回归 的 过 程 中 也 会 有 类 似 的 情况 ， 在 为 了 使 得 误差 尽 可 
能 小 的 过 程 中 ， 会 同时 使 得 函数 的 描述 变 得 过 于 复杂 ， 以 至 于 大 大 提高 
使 用 成 本 ， 那 么 这 种 减 小 误差 的 行为 其 实 是 得 不 偿 失 的 。 


所 有 这 种 使 得 函数 的 描述 变 得 过 于 复 傈 ， 或 者 参数 过 于 繁多 ， 或 者 
由 于 训练 样本 的 问题 导致 秃 数 失去 泛 化 特性 的 拟 合 过 程 都 叫做 过 度 拟 合 
(Overfitting) 。 
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与 过 度 拟 合 相 反 ， 还 有 一 种 现象 叫做 欠 拟 合 ， 简 称 欠 拟 。 





欠 拟 顾 名 轧 义 ， 束 是 由 于 操作 不 当 一 一 也 可 以 说 建 模 不 当 产 生 的 误 
兰 e 分 布 太 散 或 者 太 大 的 情况 。 这 种 情况 下 ， 通 常 体现 出 来 的 都 是 在 线 
性 回归 中 的 因素 考虑 不 足 的 情况 ， 常 见 的 原因 有 以 下 两 种 。 


(1) 参数 过 少 。 对 于 训练 样本 向 量 的 维度 提取 太 少 会 导致 模型 描 
述 的 不 准确 。 





例如 ， 要 根据 银行 储户 的 信息 来 判断 其 信誉 好 或 不 好 ， 通 第 需要 综 
合 考虑 用 户 的 年 龄 、 流 水 总 和 、 账 户 余额 、 借 贷 频 次 、 借 贷 额度 、 归 还 
准时 程度 等 信息 特征 。 这 些 因素 考虑 得 越 充 分 ， 通 党 对 于 用 户 的 信誉 好 
或 不 好 ， 给 予 的 信用 额度 多 少 为 宜 束 会 有 比较 可 徘 的 预测 程度 。 而 如 果 
参数 太 少 ， 如 只 有 账户 余额 一 项 ， 那 么 就 不 得 不 用 账户 余额 一 个 参数 和 
信誉 好 坏 去 建立 一 个 模型 映射 关系 。 这 个 模型 是 很 不 科学 的 ， 通 过 一 个 
余额 的 数字 就 能 断言 一 个 人 信誉 几何 太 过 武断 。 











(20 拟 合 不 当 。 拟 合 不 当 的 原因 比较 复杂 ， 通 常 是 拟 合 方 法 不 正 
确 造 成 的 。 


例如 ， 某 个 训练 样本 向 量 x 与 结果 值 y 之 间 的 关系 如 下 : 


(1, 1) 


(1.41, 2) 


(1.7, 3) 


(2.1, 4) 








形成 这 4 组 向 量 以 后 ， 用 y=x? 在 第 一 象限 的 曲线 去 拟 合 误 差 更 小 。 
而 如 果 用 图 8-11 所 示 的 直线 y=3.732x-2.932 做 拟 合 ， 显 然 都 没有 y=x? 的 
误差 小 。 





图 8-11 用 直线 y=3.732x-2.932 拟 合 





几 是 在 欠 拟 合 时 ， 都 要 重新 考虑 建 模 是 不 是 有 考虑 欠缺 的 地 方 。 
为 误差 太 大 以 至 于 拟 合 函 数 没有 沁 化 能 力 而 失去 指导 意义 ， 这 与 没有 做 
拟 合 差不多 。 


8.6 ”曲线 拟 合 转化 为 线性 拟 合 








非 线性 回归 的 情况 太 过 复杂 ， 在 生产 实践 中 也 尽量 避免 使 用 这 种 模 
型 。 好 在 分 类 算法 有 很 多 ， 而 且 更 多 的 是 为 了 处 理 半 结 构 化 数据 ， 所 以 
非 线 性 回归 相关 的 内 容 只 做 一 般 性 了 解 即 可 。 








非 线性 回归 一 般 可 以 分 为 一 元 非 线 性 回归 和 多 元 非 线性 回归 。 





一 元 非 线 性 回归 是 指 两 个 变量 一 一 一 个 自 变 量 ， 一 个 因 变 量 之 间 呈 
现 非 线性 关系 ， 如 双 曲 线 、 二 次 曲线 、 三 《多 ) 次 曲线 、 才 曲线 、 指 数 
曲线 、 对 数 曲 线 等 。 在 解决 这 些 问题 时 通 冲 建立 的 是 非 线 性 回归 方程 或 
者 方程 组 。 











多 元 非 线性 回归 分 析 是 指 两 个 或 两 个 以 上 上 自 变 量 和 因 变 量 之 间 呈 现 
的 非 线 性 关系 建立 非 线性 回归 模型 。 对 多 元 非 线性 回归 模型 求解 的 传统 
做 法 ， 仍 然 是 想 办 法 把 它 转 化 成 标准 的 线性 形式 的 多 元 回归 模型 来 处 
理 。 有 些 非 线性 回归 模型 ， 经 过 适当 的 数学 变换 ， 便 能 得 到 它 的 线性 化 
的 表达 形式 ， 但 对 另外 一 些 非 线性 回归 模型 ， 仅 仅 做 变量 变换 根本 无 济 
于 事 。 属 于 前 一 种 情况 的 非 线 性 回归 模型 一 般 称 为 内 强 的 线性 回归 ， 而 
后 者 则 称 之 为 内 强 的 非 线 性 回归 。 











线性 拟 合 里 最 简单 的 就 是 上 述 y=ax+b 这 种 形式 。 除 此 之 外 ， 可 以 将 
等 式 两 边 转 化 为 几 个 一 次 式 加 和 的 情况 ， 不 论 是 一 元 的 还 是 多 元 的 ， 部 





仍然 是 线性 回归 研究 的 范畴 。 再 如 : 


20 世 纪 60 年 代 的 世界 人 口 状况 如 表 8-2 所 示 。 


表 8-2 20 世纪 60 年 代 世 界 人 口 状况 














年 份 世界 人 口 〈 亿 ) 年 份 世界 人 口 〈 亿 ) 
1960 29.72 1965 32.85 
1961 30.61 1966 33.56 
1962 31.51 1967 34.20 
1963 32.13 1968 34.83 
1964 32.34 

















AM S KEE A DES 





其 中 s 是 人 口 ，t 是 年 份 ，e 是 目 然 常数 ( 约 取 2.71828) ， 试 着 推导 
一 下 到 2030 年 时 世界 人 口 的 数量 。 这 个 问题 是 一 个 比较 典型 的 多 元 线性 
回归 的 问题 模型 。 求 解 如 下 。 


对 等 式 两 边 同 时 取 了 《以 e 为 底 的 log) ， 得 到 
In s=fr+ln a 
在 这 里 实际 上 用 的 还 是 线性 回归 模型 ， 相 当 于 


y=ax+b 


In s=v 
f=a 
In a=b 


这 种 使 用 方式 在 Python 中 同样 可 以 套用 线性 回归 的 方法 ， 代 码 如 
PB: 





import numpy as np 

from scipy.optimize import curve fit 
import matplotlib.pyplot as plt 

# 原 始 数 据 


T = [19690. 


1961. 


1962, 


1963, 


1964, 


1965, 


1966, 


1967, 


1968] 
S = [29.72, 


30.61, 


31.51. 


32.13, 


32.34, 


32.85, 


33.56, 


34.20, 


34.83] 
xdata = np.array« 


T 


ydata = np.log« 


np.array ( 
S) ) 

def func « 
X, 

a. 

b>: 


return a + b*x 
THE FEAR VES) RE HU Gr ERU 

















popt. 


pcov - curve fit« 


func. 


xdata. 


ydata) 


plt.plot < 


xdata. 


ydata. 


'ko', 


label-"Original Noised Data") 


plt.plot.: 


xdata. 


func « 


xdata. 


*popt). 


Ly. 


label="Fitted Curve") 


plt.show © 





如 图 8-12 所 示 ， 横 轴 写 着 +1.96e3， 这 是 用 科学 记 数 法 来 表示 的 ， 意 
思 为 1.96x103 ， 也 就 是 1960， 横 轴 上 的 点 就 是 1960~1968。 纵 轴 是 ln s 的 


值 ， 和 斜率 是 B 的 值 ， 截 距 是 ina 的 值 ， 计 算 完 成 后 通过 代 换 可 以 计算 出 B 
和 a 的 值 。 





图 8-12 ”线性 回归 函数 图 形 





在 这 个 例子 中 ， 最 后 可 以 得 到 B=0.01859，a=4.48401395866716x10- 


代入 公式 s=o'ef ， 求 得 s 的 值 ， 单 位 是 亿 。 


在 预测 人 口 数量 时 ， 直 接 把 年 份 代入 即 可 ， 如 2000 年 时 ， 代 入 公式 
得 到 s 约 为 62.9 亿 。 


关于 马尔 萨 斯 人 口 模型 公式 s=a'eg 有 一 个 需要 注意 的 地 方 ， 即 预测 


近期 的 人 口 数据 基本 准确 ， 如 2000 年 的 人 口 ， 使 用 这 个 模型 预测 出 来 是 
62.9 亿 ， 真 实 的 统计 数据 为 61.02 亿 ， 误 差 不 到 3.1%， 还 是 一 个 相对 比较 
精确 的 模型 。 但 是 代入 更 大 的 数字 就 会 出 现 问题 ， 如 代入 4000 这 个 数 
字 ， 算 出 来 大 约 88263 万 亿 ， 这 个 数字 是 不 可 信 的 ， 因 为 公元 4000 年 的 
时 候 世 界 人 口 数 量 增 大 至 现在 的 1200 多 万 倍 ， 按 照 地 球 陆 地 面积 1.49 亿 
平方 千 米 计 算 ， 平 均 每 平方 米 上 有 592 个 人 而 且 不 管 是 高 山峡 谷 沼泽 森 
林 统 统 都 算 在 内 。 这 种 现象 可 不 是 这 一 个 例子 里 所 特有 的 ， 所 有 的 由 统 
计 而 来 的 回归 方程 在 自 变 量 很 大 或 者 很 小 时 都 容易 发 生 失 真 。 所 以 回归 
这 种 模型 只 能 用 来 预测 和 自 变量 统计 的 区 间 比 较 近 的 自 变量 对 应 的 函数 
值 。 




















BT aA 


Mas J AFA Eo UA. BASIE IA EE AR EHE. CR BE 
人 们 先 给 了 计算 机 一 些 样 本 ， 然 后 让 计算 机 根据 样本 计算 出 一 种 公式 或 
者 模型 ， 而 在 公式 或 者 模型 成 立 后 ， 人 们 再 给 这 个 模型 新 的 样本 ， 它 就 
可 以 把 这 个 样本 猜测 或 者 说 推断 为 条 一 分 类 。 











不 同 的 是 ， 在 回归 中 研究 的 部 是 具体 的 数值 (实数 ) ， 而 分 类 算法 
则 不 一 定 ， 它 的 样本 除了 可 以 是 数值 外 ， 可 能 很 多 是 一 些 枚 举 值 或 者 文 
本 。 读 者 只 需要 从 这 个 角度 来 做 感性 上 的 区 分 即 可 。 





在 使 用 回归 的 过 程 中 ， 要 注意 尽量 避免 出 现 过 拟 和 穴 拟 ， 让 函数 描 
述 在 简洁 和 精确 之 间 找 一 个 平衡 ， 这 才 是 众多 从 统计 而 来 的 回归 过 程 最 
后 落地 所 要 考虑 的 事情 。 过 拟 和 欠 拟 不 仅 出 现在 回归 方法 中 ， 在 其 他 基 
于 样本 向 量 的 统计 归纳 的 模型 训练 中 都 有 这 样 的 问题 ， 请 读者 一 定 要 注 


Ic. 
Ah o 








HIE FR 





RR (Clustering〉 指 的 是 一 种 学 习 方式 (操作 方式 ) ， 即 把 物理 或 
抽象 对 象 的 集合 分 组 为 由 彼此 类 似 的 对 象 组 成 的 多 个 类 的 分 析 过 程 。 





聚 类 这 种 行为 我 们 不 要 觉得 很 神秘 ， 也 不 要 觉得 这 个 东西 是 机 器 学 
习 所 独 有 的 ， 恰 恰 相 反 ， 聚 类 的 行为 本 源 还 是 人 自身。 我 们 学 习 的 所 有 
数据 挖掘 或 者 机 器 学 习 的 算法 或 者 思想 的 来 源 都 是 人 类 目 己 的 思考 方 
式 ， 只 不 过 我 们 把 它 教 给 机 器 让 它们 代劳 ， 让 它们 成 为 我 们 上 肢体 和 能 
的 延伸 而 不 是 让 它们 蔡 我 们 创造 和 思考 。 





聚 类 是 一 种 什么 现象 呢 ?” 我 们 在 认识 客观 世界 的 过 程 中 其 实 一 直通 
到 容量 性 的 问题 ， 遇 到 的 每 一 棵 树 、 每 一 条 花 、 每 一 只 昆虫 、 每 一 头 动 
物 、 每 一 个 人 、 每 一 栋 建 筑 .…… 每 个 个 体 之 间 其 实 都 不 同 ， 有 的 还 差距 
相当 大 。 那 么 人 在 认 知 和 记忆 这 些 客观 事物 的 过 程 中 就 会 异常 痛 兰 ， 因 
为 量 实在 是 大 到 无 法 承受 的 地 步 。 








因此 人 类 才 会 在 “ 自 底 同上 ”的 认识 世界 的 过 程 中 “偷懒 ”性 地 选择 了 
归纳 归 类 的 方式 ， 注 意 “ 偷 懒 * 这 种 方式 是 人 类 与 生 俱 来 的 。 








我 们 在 小 时 候 被 父母 用 看 图 说 话 的 方式 来 教 嘱 呀 学 语 的 时 候 残 有 过 
类 似 的 体会 了 ， 图 片上 画 了 一 只 猴子 ， 于 是 我 们 就 认识 了 ， 这 是 一 只 猴 
Ti; 图 片上 男 了 一 辆 汽车 ， 于 是 我 们 束 了 解 了 ， 这 是 一 辆 汽车 .…… 我 们 











上 街 或 者 去 动物 园 的 时 候 再 看 ， 猴 子 也 不 是 画 上 的 儿子， 而且 众 多 猴子 
也 长 得 各 式 各 样 ， 每 个 都 不 同 ， 我 们 会 把 他 们 当成 一 个 个 新 事物 去 认识 
吗 ? 我 们 看 汽车 也 同样 ， 大 小 、 颜 色 、 样 式 ， 甚 至 是 喇叭 的 声音 也 是 形 
形 色 色 、 五 花 八 门 ， 它 们 在 我 们 眼 里 是 一 个 个 新 的 事物 吗 ? 不 ， 它 们 都 
还 是 汽车 。 这 些 事物 之 间 确 实 有 所 不 同 ， 但 是 它们 对 我 们 的 认 知 带 来 了 
很 大 的 困扰 吗 ? 并 没有 。 我 们 无 论 如 何 是 不 会 把 猴子 和 汽车 当成 一 类 事 
物 去 认 知 的 ， 猴 子 彼此 之 间 是 不 同 ， 但 是 体格 、 毛 发 、 行 为 举止 ， 种 种 
形态 让 我 们 认为 这 些 不 同 种 类 的 猴子 都 还 是 属于 猴子 这 一 个 大 类 的 动 

物 ， 更 别 说 是 和 汽车 混为一谈 ， 束 是 跟 狗 、 号 、 能 这些 消 椎 动物 我 们 也 
能 轻易 地 分 开 。 























人 类 天 生 具 备 这 种 归纳 和 总 结 的 能 力 ， 能 够 把 相似 的 事物 放 到 一 起 
来 作为 一 类 事物 进行 认识 ， 它 们 之 间 可 以 有 彼此 的 不 同 ， 但 是 有 一 
个 “限度 ”， 只 要 在 这 个 限度 内 ， 特 征 稍 有 区 别 无 关 大 碍 ， 它 们 仍然 是 这 
一 类 事物 (图 9-1) 。 











图 9-1 人 类 的 归纳 和 总 结 能 力 


在 这 一 类 事物 的 内 部 ， 同 样 有 这 种 现象 ， 一 部 分 个 体 之 间 比 较 相 
近 ， 而 另 一 部 分 个 体 之 间 比 较 相 近 ， 这 两 部 分 个 体 彼 此 之 间 能 够 被 明显 
认 知 到 差别 ， 那 么 这 个 部 分 的 事物 又 会 在 大 类 别 的 内 部 重新 划分 成 两 个 
不 同 的 部 分 进行 认 知 。 如 汽车 从 样子 上 可 以 分 成 小 轿车 、 卡 车 、 面 包车 
等 种 类 ， 虫 子 也 被 从 外 形 上 区 别 为 《 虫 、 爬 虫 、 毛 毛虫 .…… 





在 没有 人 特意 教授 不 同 小 种 群 的 称谓 与 特性 之 前 ， 人 类 目 然 具 备 这 
种 主观 的 认 知 能 力 ， 以 特征 形态 的 相同 或 近似 将 它们 划 在 一 个 概念 下 ， 
以 特征 形态 的 不 同 划 在 不 同 的 概念 下 ， 这 本 里 束 是 聚 类 的 思维 方式 。 





9.1 K-Means 算 法 











在 肾 类 中 K-Means 算 法 是 很 第 用 的 一 个 算法 ， 也 是 基于 癌 量 距离 来 
(HRA. GALA TEU F o 
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(20 根据 在 步骤 《1) 中 设置 的 k 个 向 量 〈 中 心 对 象 向 量 ) ， 计 算 
每 个 对 象 与 这 k 个 中 心 对 象 各 目的 距离 。 











(3) 对 于 步骤 (2) 中 的 计算 ， 任 何 一 个 向 量 与 这 k 个 向 量 都 有 一 
个 距离 ， 有 的 远 有 的 近 ， 把 这 个 向 量 和 距离 它 最 近 的 中 心 向 量 对 象 归 在 


TARH. 














(4). 重新 计算 每 个 类 禾 的 中 心 对 象 癌 量 位 置 。 











(5) 重复 G) (4) 两 个 步骤 ， 直 到 类 秘 聚 类 方案 中 的 向 量 归 类 
变化 极 少 为 止 。 例 如 ， 一 次 迭代 后 ， 只 有 少 于 1% 的 向 量 还 在 发 生 类 艇 
之 间 的 归 类 漂移 ， 那 么 就 可 以 认为 分 类 完成 。 








包 需 要 事先 给 定 初 始 的 类 中 心 。 


例如 ， 先 准备 一 个 中 国 城市 经 纬度 表 ， 
Fal A H, kA, KA): 





北京 市 ， 北 京 市 ， 





39.55, 


116.2489, 





26.05, 


119.184, 


25.58, 


119 .31 福建 省 ， 福 


27.06, 


119. 39 福建 省 ， 


25.42, 


119.2394, 


27.03, 


118.2089. 





27.21, 


1418 .O07 福建 省 ， 晋 


24.49, 


118 . 35 福建 省 ， 


24.26, 


福州 ， 


长 乐 ， 


福清 ， 





建 阳 ， 


龙 海 ， 


ER, 


一 共 604 个 向 量 ， 


vy 


过 


4 个 维度 


117.4885, 


25.06. 


117.01U4. 


24.57, 


118.2354, 


26.38, 


118 .10 福建 省 ， 


26.39, 


119 .31 福建 省 ， 


24.26. 


119.0195, 


24.56, 


118.3695. = 


26.13, 


117 . 36 福 建 省 ， 





27.20, 


117.2981, 


24.44, 


118.385, 


27.46, 


南安 ， 


























泉州 ， 


BR. 


石狮 ， 





武夷 山 ， 


118.0295. Er], 


24.27, 


118.0638. KZ, 


25.58, 


117.2318, PF, 








25.17, 


浙江 省 ， 平 湖 ， 





30.42, 


121. 0 工 浙江 省 ， 衢 州 ， 


28.58, 


118. 52 浙江 和 省， 到 


2E 
» 


27.48, 


120 ,38 浙江 省 ， 上 虞 ， 


30.01. 


120. 52 浙江 省 ， 绍 兴 ， 


30.00, 


120. 34 浙 江 省 ， 台 州 ， 


28.41, 


121 .27 浙 江 省 ， 


El 
KS 


30.38, 


1420 .32 浙江 省 ， 温 岭 ， 


28.22. 


121.243,98. BM, 


28.01. 


120. 39 浙江 省 ， 萧 山 ， 





30.09, 


120.165, x5, 


29.18, 


1420 .O04 浙江 省 ， 乐 清 ， 


28.08. 


120. 58 浙江 省 ， 余 杭 ， 


30.26. 


120.18. Rik, 


30.02. 


121.10 ARE, 


29.54, 


120. 01 浙江 省 ， 舟 山 ， 


30.01. 


22 .906 浙江 省 ， 诸 暨 ， 


29.43, 


120.148 pci, EKT, 


29.35, 


106. 33 重庆 市 ， 合 川 市 ， 





30.02, 


106 .15 重 庆 市 ， 江 津 市 ， 











29.18, 


106.16. mm, 








29.10, 


107 . 05 重庆 市 ， 永 川 市 ， 








29.23. 


105.53 





把 它 保存 成 一 个 文本 文件 “city.txt" 以 备 后面 实 验 使 用 。 


使 用 K-Means 算 法 的 代码 如 下 : 





#coding=utf-8 

import numpy as np 

import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
# 从 磁盘 读 取 城市 经 纬度 数据 


[] 


open ' 


hx 


Wo 


'city.txt'» 


for v in f. 


X.append < 


[float < 


v.split: 


[2]. 


float < 


v.split < 


# 转 换 成 


numpy array 


X = np.array« 


X) 


FREK c 


n_clusters = 5 


# 现 在 把 数据 和 对 应 的 分 类 数 放 入 聚 类 函数 中 进行 


cls = KMeans ( 





n clusters» 


„fit c 


X) 





#X 中 每 项 所 属 分 类 的 一 个 列表 


cls.labels_ 
# 画 图 


markers = ['^'. 


XU 


rot 


1 类 1 


'+'] 
for i in range « 


n clusters». 


members - cls.labels -- i 
plt.scatter ( 


X[members. 


9]. 


X[members, 


1], 


s=60, 


markerzmarkers[i]. 


c='b', 
alpha=0.5) 


plt.title: 


uu 


plt.show © 


绘 出 的 图 形 如 图 9-2 所 示 。 

图 9-2 中 的 横 坐 标 表示 北纬 维度 ， 纵 坐标 表示 东经 维度 。 把 中 国 的 
城市 划分 为 5 个 大 城市 区 域 ， 在 图 上 对 应 划分 出 东北 、 华 中 、 华 南 、 西 
部 、 西 北 5 个 区 域 。 形 状 比较 奇怪 ， 像 是 治 铸 左下 到 右上 的 对 角 线 < 照 了 
个 镜子 ”， 西 北 跑 到 了 和 东南， 东南 跑 到 了 西北 。 
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Klo-2 绘 出 的 图 形 


9.2 ”有 趣 模式 


有 趣 模式 顾名思义 ， 是 指 容易 让 我 们 产生 兴趣 的 模式 。 





在 数据 挖掘 和 机 器 学 习 中 ， 一 次 计算 会 产生 大 量 的 “模式 ”。 所 谓 模 
式 可 以 理解 成 一 种 数据 规律 。 例 如 ， 上 述 K-Means 将 研究 的 数据 对 象 分 
成 右 干 个 组 ， 这 些 划分 方法 就 是 模式 。 

在 后 面 的 章节 中 也 会 碰 到 其 他 的 算法 市 来 的 模式 。 在 一 次 算法 中 可 
能 会 产生 很 多 模式 ， 然 而 “有 趣 模式 ?可 能 并 不 多 。 


如 果 一 个 模式 具备 以 下 特点 ， 那 么 它 是 有 趣 的 《〈Interesting) 。 


WY 


(1) 易于 被 人 理解 。 


WY 


(2) 在 菜 种 确信 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 。 


WY 


(3) 是 潜在 有 用 的 。 


WY 


(4) FET AMY o 





如 果 一 个 模式 证 实 了 某 种 假设 ， 则 它 也 是 有 趣 的 。 有 趣 的 模式 代表 
知识 。 


怎么 理解 呢 ， 我 们 来 看 几 个 例子 体会 一 下 。 


第 一 , “易于 被 人 理解 >。 易 于 理解 的 意思 就 是 说 人 们 看 到 这 样 一 种 
数据 关系 、 一 种 结果 ， 比 较 容易 从 非 数 据 层面 进行 理解 ， 或 者 比较 容易 
在 实际 的 生产 生活 中 解释 其 原理 或 关系 。 





第 二 ,，“ 在 系 种 确信 和 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 "。 也 就 是 
说 ， 这 样 一 种 总 结 出 来 的 数据 规律 和 特性 对 于 新 的 样本 是 可 以 套用 的 ， 
即 有 趣 模式 研究 的 绝 非 一 个 空前 或 绝 后 的 孤本 ， 因 为 这 种 东西 不 有 具备 任 
何 迁 移 性 和 继承 性 。 








第 三 , “是 潜在 有 用 的 ”是 指 这些 有 趣 模式 一 定 要 有 实际 意义 或 者 价 
值 ， 而 那些 虽然 能 被 理解 ， 而 且 可 以 用 来 检验 新 的 数据 样本 的 模式 ， 如 
条 疫 有 实际 意义 或 者 价值 ， 则 同样 不 是 有 趣 的 。 





第 四 , “是 新 颖 的 *。 例 如 ， 不 会 有 人 对 几 十 年 前 就 已 经 非常 熟识 并 
为 每 个 人 所 知晓 的 知识 有 兴趣 。 因 为 已 知 的 东西 已 经 " 浮 出 水 面 "， 不 需 
要 去 “ 控 气 " 了 。 


9.3 JILA 
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是 专门 作为 一 类 研究 方法 来 研究 的 。 











聚 类 算法 通常 不 能 直接 解释 孤立 点 产生 的 原因 ， 但 是 孤立 点 通常 也 
是 有 具体 意义 的 。 





第 一 ， 拆 立 反 可 能 是 由 于 数据 清洗 不 当 而 产生 的 ， 这 属于 操作 性 的 


失误 问题 ， 不 是 要 研究 的 内 容 。 





第 二 ， 拆 立 反 通常 由 一 些 和 群 里 的 个 体 特点 差异 极 大 的 样本 组 成 ， 
它们 的 行为 在 真实 世界 里 和 在 我 们 的 生产 生活 中 也 极 有 可 能 和 群 里 的 样 
ISA Aa BK I AEF o 


在 生产 生活 中 ， 孤 立 点 的 应 用 和 研究 也 很 多 。 例 如 ， 在 银行 的 信用 
卡 诈骗 识别 中 ， 研 究 孤 陈皮 殊 是 很 好 的 办 法 ， 通 过 对 大 量 的 信用 卡 用 户 
言 电 和 消费 行为 进行 阿 量 化 建 模 和 聚 类 ， 发 现在 聚 类 中 远离 大 量 样本 的 
点 显得 非常 可 疑 一 一 因为 他 们 和 一 般 性 的 信用 卡 用 户 特 性 不 同 ， 他 们 的 
消费 行为 和 一 般 性 的 信用 卡 消费 行为 也 相去 甚 远 。 还 有 医学 领域 和 刑侦 
领域 的 大 数据 研究 中 都 大 量 应 用 了 孤立 扣 的 研究 技术 。 在 某 些 大 型 网 络 
商城 里 ， 为 了 防止 一 些 商 家 恶意 刷 单 ， 也 采用 了 与 刑侦 手段 相似 的 措 

















施 ， 对 店铺 的 销售 行为 以 及 买 家 的 购买 行为 进行 聚 类 ， 看 看 有 哪些 对 象 
古 与 一 般 性 的 店铺 销售 行为 或 者 买 家 购买 行为 送 异 巨大 的 ， 从 而 做 出 规 
则 上 的 预防 。 








层次 聚 类 这 个 说 法 很 形象 ， 与 本 章 最 开始 介绍 的 人 类 “ 自 底 向 上 ” 认 
识 事物 的 过 程 是 一 样 的 。 


前 面 介 绍 的 K-Means 算 法 是 直接 把 样本 分 成 若干 个 群 ， 而 现在 讨论 
的 层次 聚 类 惑 是 通过 聚 类 算法 把 样本 根据 距离 分 成 耕 干 大 群 ， 大 群 之 间 
相 异 ， 大 群 内 部 相似 ， 而 大 群 凡 部 勾当 成 一 个 全 局 的 样本 空间 ， 再 继续 
划分 成 重 干 小 群 ， 小 群 之 间 相 异 ， 小 群 内 部 相似 。 这 融 是 层次 聚 类 的 思 
想 。 最 后 形成 的 是 一 棵 树 的 结构 。 











图 9-3 所 示 为 部 分 动物 界 物种 分 类 层级 的 示意 图 ， 从 大 到 小 分 别 是 
门 、 纲 、 目 、 科 、 属 、 种 6 个 层级 ， 这 里 只 列 出 了 前 3 个 层级 。 这 就 像 公 
司 内 部 的 部 门 层级 结构 一 样 ， 从 小 到 大 看 也 是 根据 个 体 与 个 体 、 小 类 与 
小 类 之 间 的 相似 程度 汇 萌 成 一 个 囊括 更 多 相似 特征 的 大 群体 ， 而 后 层 层 
pui 
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Kl9-3 ”部 分 动物 界 物种 分 类 层次 示 图 


从 思考 角度 来 说 ， 有 两 种 思路 ， 一 种 是 “凝聚 的 层次 聚 关 方法 ”， 一 
种 是 “分 裂 的 层次 聚 类 方法 ”。 这 两 种 说 法 也 很 形象 ，“ 凝 聚 的 层次 聚 类 
方法 ”就 是 在 大 量 的 样本 中 自 底 向 上 找 那 些 距离 比较 近 的 样本 先 聚 合成 
小 的 群 ， 聚 合 到 一 定 程 度 再 由 小 的 群 聚 合成 更 大 的 群 。 分裂 的 层次 聚 
类 方法 ”也 好 理解 ， 殊 是 和 完 把 所 有 的 样本 分 成 大 干 个 大 群 ， 表 在 每 个 群 
里 各 自重 新 进行 聚 类 划分 。 








“分 裂 的 层次 聚 类 方法 ?比较 好 做 。 其 实 可 以 尝试 用 前 面 介 
Means， 可 以 和 多 用 K-Means 进 行 一 次 聚 关 ， 分 成 右 干 个 类 艇 ， 再 在 每 个 
类 艇 中 使 用 K-Means 进 行 聚 类 ， 这 种 思路 是 很 容易 被 想到 的 。 这 种 方式 
大 家 尝试 去 用 一 下 就 可 以 了 。 


TS 
i 
cr 
a 


下 面 重点 介绍 “凝聚 的 层次 聚 类 方法 ”。 





凝聚 的 层次 聚 类 方法 是 通过 这 样 的 算法 思路 进行 工作 的 : 在 Scikit- 
learn 库 中 ， 提 供 了 一 种 叫 作 AgglomerativeClustering 的 分 类 算法 。 首 先 ， 
它 把 整个 待 分 类 样本 看 作 一 棵 完整 的 树 ， 树 根 是 所 有 的 训练 样本 向 量 ， 
而 众多 树叶 就 是 每 一 个 单独 的 样本 。 然 后 ， 设 计 几 个 观察 点 ， 让 它们 散 
布 在 整个 训练 样本 中 。 让 这 些 观 察 点 自 下 而 上 不 断 地 进行 类 簇 的 合并 。 
这 种 聚 类 合并 也 是 遵循 一 定 的 原则 的 ， 即 基于 连接 度 的 度量 来 判断 是 否 
要 向 上 继续 合并 两 个 类 艇 。 度 量 有 以 下 3 种 不 同 的 策略 原则 。 

















Ward 策略 : 让 所 有 类 禾 中 的 方差 最 小 化 。 


.Maximum 策 略 : 也 叫 completed linkage (全 连接 策略 ) ， 力 求 将 类 
禾 之 间 的 距离 最 大 值 最 小 化 。 





Average linkage 策 略 : 力求 将 簇 之 间 的 距离 的 平均 值 最 小 化 。 
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#coding=utf-8 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.cluster import AgglomerativeClustering 
# 从 磁盘 读 取 城市 经 纬度 数据 


[] 


open ( 


hx 


Wo 


'city.txt'» 


for v in f. 


X.append < 


[float < 


v.split < 


[2b .; 


float < 


v.split « 


[3b 


p 


# 转 换 成 


numpy array 


X = np.array« 


X) 


HAG SE 


n_clusters = 5 














# 现 在 把 数据 和 对 应 的 分 类 数 放 入 聚 类 函数 中 进行 聚 类 ， 使 











方差 最 小 化 的 方法 





'ward' 
cls = AgglomerativeClustering.: 


linkage='ward', 


n_clusters=n_clusters) 


.fit« 


X) 


#X 中 每 项 所 属 分 类 的 一 个 列表 





cls.labels _ 
上 # 画 图 


markers = ['^'. 


tayi 
X, 


te] 
for i in range 


n clusters». 


members - cls.labels -- i 


plt.scatter ( 


X[members, 


6]. 


X[members 


1], 


s=60, 


markerzmarkers[i]. 


c='b' 


alpha=0.5) 


plt.title: 


V Y3 


plt.show © 


绘 出 的 图 形 如 图 9-4 所 示 。 





图 9-4 绘 出 的 图 形 


层次 聚 类 的 思路 其 实 并 没有 什么 很 新 奇 的 地 方 ， 它 的 优势 更 多 的 是 
为 层次 化 的 可 视 化 提供 支持 ， 在 我 们 认识 比较 陌生 的 数据 层次 时 比较 有 
帮助 。 那 么 什么 是 比较 熟悉 的 ? 什么 是 比较 陌生 的 ? 比较 熟悉 的 就 是 人 
类 主观 上 已 经 确定 或 者 规定 的 层次 方式 ， 如 员工 等 级 、 交 通 工具 分 类 
等 ， 这 种 本 来 就 是 由 人 主观 性 规定 的 数据 就 是 人 类 熟悉 的 数据 。 不 熟悉 
的 数据 如 生物 的 分 类 和 进化 等 ， 是 几 千 万 年 来 客观 留 下 的 ， 在 人 类 出 现 


























ZH 6 9C ARTY oa TM BBE EE ARA, JR BHI AE 23 2387 
的 方式 来 逐步 * 自 底 向 上 ?认识 它们 。 这 个 课题 ， 可 以 通过 对 生物 解剖 学 
的 特征 进行 向 量 建 模 ， 也 可 以 根据 DNA 的 特征 进行 向 量 建 模 然后 挖掘 。 
此 外 ， 层 次 聚 类 的 思路 也 可 以 用 于 对 人 们 社会 活动 中 的 一 些 现象 进行 总 
结 ， 如 一 个 做 歌曲 发 布 的 网 站 ， 如 宋 和 希望 做 推荐 算法 ， 可 以 考虑 对 一 个 
人 爱 听 的 歌曲 进行 层次 化 的 聚 类 。 对 每 首 爱 听 的 歌曲 进行 向 量 建 模 ， 如 
对 一 首 歌 的 各 个 信息 维度 进行 建 模 ， 例 如 : 








CHR THU, WHY, MEE, TURRA, SOR, H 
Pe. KES 语言 ， 歌 手 年 龄 '， 歌手 性 别 …) 

对 上 述 信息 进行 量化 。 那 么 可 以 尝试 挖 气 这 个 用 户 喜 欢歌 曲 的 大 类 
别 ， 以 及 其 下 的 小 类 别 。 或 者 研究 歌曲 流行 风格 进化 细 化 的 趋势 等 。 


Kat 


EX > 
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9.5 ZER 


密度 聚 类 很 多 时 候 用 在 聚 类 形状 不 规则 的 情形 下 ， 如 图 9-5 所 示 ， 


黑 反 和 白 反 分别 代表 两 种 不 同 的 聚 类 类 型 。 





图 9-5 ” 聚 类 形状 不 规则 








从 图 9-5 中 可 以 看 出 ， 很 显然 类 别 是 这 两 个 不 规则 的 形状 。 但 是 如 
果 使 用 K-Means 算 法 ， 无 论 如 何 是 得 不 到 这 个 结果 的 ， 因 为 K-Means 是 


用 欧 氏 距离 半径 来 进行 类 簇 划 分 的 ， 对 于 这 种 带 拐弯 的 、 狭 长 的 、 不 规 
WU FEAR AES BR BA TA FZ ERI BOR Fo 





值得 注意 的 是 ，K-Means 的 距离 计算 公式 也 是 可 以 选取 的 ， 一 般 用 
欧 氏 距离 比较 简单 ， 或 者 用 曼哈顿 距离 。 和 常用 的 距离 度量 方法 包括 欧 氏 
距离 和 余弦 相似 度 。 两 者 都 是 评定 个 体 间 差 异 的 大 小 的 。 欧 氏 距 离 度量 
会 受 指标 不 同 单位 刻度 的 影响 ， 所 以 一 般 需 要 先进 行 标准 化 或 者 归 一 
化 ， 同 时 距离 越 大 ， 个 体 间 差 寞 越 大 ;空间 癌 量 余弦 夹 角 的 相似 度 上 度量 
不 会 受 指标 刻度 的 影响 ， 余 弦 值 落 于 区 间 [-1，1] 上 ， 值 越 大 ， 差 异 越 
小 。 有 关 使 用 余弦 相似 度 来 度量 个 体 癌 量 距 离 的 例子 将 在 后 面具 体 介 


绍 。 

















在 sklearn 里 也 有 专门 用 来 做 基于 密度 分 类 的 算法 库 一 一 
sklearn.cluster. DBSCAN. 


由 于 密度 聚 类 在 样本 比较 多 时 容易 看 出 效果 ， 所 以 这 里 使 用 一 个 问 
量 比较 多 的 例子 。 向 量 定义 如 下 : 


(位 次 ， 国 家 ， 面 积 km2， 人 口 ，GDP 亿 美元 ， 人 均 GDP 美 元 ) 


注意 : 同 量 实例 一 共有 12 个 ， 为 了 和 代码 统一 ， 这 里 不 写 两 边 的 括 


号 ， 但 是 意义 是 一 样 的 。 























km2. A 











GDP 亿 美元 ， 人 均 


GDP 美 元 

















9670250， 


1392358258. 
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7179 印 度 ， 


2980000. 
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9629091. 


317408015, 


167997, 
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377873, 


127270000, 


49015, 


38491 X RW. 


7692024. 


23540517, 


15053, 


64863) X. 


9984670. 


34591000, 


18251, 


51990 俄 罗斯 ， 


171244422, 


143551289, 


21180, 





14819% 











513115, 


67041000, 


3871.6, 


5674 束 埔 寨 ， 


181035, 


14805358, 


156.5, 





1016:5m, 











99600. 


50400000, 


12218, 


24329 t£, 


120538, 


24052231, 


355, 


1476 





对 它们 进行 密度 诊 类 的 代码 如 下 : 





#coding=utf-8 

import numpy as np 

from sklearn.cluster import DBSCAN 
import matplotlib.pyplot as plt 

## 国 家 面积 和 人 























X= [ 
[9670250, 


1392358258], 





#4 E 














[2980000, 


1247923065]. 


SEDE 


[9629091, 


317408015], 





# 美 国 











[8514877， 


201032714]. 





[377873. 


127270000]. 


HE 


[7692024, 


23540517 ]. 


# 澳 大 利 亚 


[9984670, 


34591000], 


# 加 拿 大 


[17075400， 


143551289]. 


# 俄 罗斯 


[513115， 


67041000]. 





HEE RR 











[181035. 


14805358]. 


HRA 





[99600, 


50400000]. 





# 韩 国 











[120538. 


24052231]] sus 


# 转 换 成 


numpy array 
X = np.array í 


X) 


# 做 归 一 化 


1] / 17075400.0 * 10000 


b = X[: ， 

1: 

] / 1392358258.0 * 10000 
X = np.concatenate ( ( 


b». 


axis=1) 


# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 ， 这 里 没有 出 现 噪点 是 因为 把 








min_samples# 设 置 成 了 


1 
cls = DBSCAN ( 


eps=2000. 


min_samples=1) 


.fit« 


X) 


HARB 


n clusters = len 


set ( 


cls.labels »» 


#X 中 每 项 所 属 分 类 的 一 个 列表 








cls.labels 
# 画 图 


markers = ['^', 


bt 


"ETI 
for i in range « 


n clusters». 


my members - cls.labels -- i 
plt.scatter ( 


X[my. members. 


0]. 


X[my members. 


1], 


s=60, 


markerzmarkers[i]. 


c='b' 


alpha=0.5) 


plt.title: 


'dbscan'» 


plt.show © 





绘 出 的 图 形 如 图 9-6 所 示 。 


dbscan 


12 000 


10 000 


8000 


6000 


4000 


2000 





一 2000 
一 2000 0 2000 4000 6000 8000 10000 12000 


图 9-6 绘 出 的 图 形 


在 这 个 例子 里 ， 国 家 被 分 为 了 5 个 不 同 的 类 别 ， 在 图 上 分 别 由 5 种 不 
同 的 图 形 元 素来 标识 ， 我 们 也 可 以 看 出 大 体 上 分 ， 就 是 人 口 和 面积 都 
多 ， 人 口 和 面积 都 少 ， 人 口 多 面积 少 ， 人 口 少 面积 , 还 有 一 个 在 右 下 
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这 里 唯一 要 解释 的 是 天 于 归 一 化 的 问题 即 以 下 两 行程 序 代码 : 


a = X[:,， 


1] / 17075400.0 * 10000 
b = X[: ， 


1: 


] 7 1392358258.0 * 10000 








归 一 化 问题 是 为 了 解决 由 于 维度 量 纲 或 单位 不 同 所 产生 的 距离 计算 
问题 而 进行 的 权重 调整 一 一 这 几乎 是 数据 挖掘 必需 的 工作 ， 一 般 放 在 数 
据 准 备 阶段 ， 目 的 是 把 两 个 不 同 维度 的 数据 都 投影 “延展 或 压缩 〉 到 以 
10000 为 最 大 值 的 正方 形 区 域 里 。 如 果 不 做 归 一 化 处 理 ， 在 这 个 例子 
中 ， 会 由 于 人 口 的 数字 〈 万 人 ) 比 面积 的 单位 《〈 万 平方 千 米 ) 大 太 多 而 
导致 由 于 人 口 差距 产生 的 距离 比重 太 大 ， 失 去 了 多 个 维度 上 聚 类 的 意 
义 。 如 果 觉 得 不 好 理解 ， 再 举 一 个 更 极端 的 例子 ， 如 果 这 里 人 口 单位 用 
人 ， 而 面积 单位 用 万 平方 干 米 ， 那 么 人 口 维度 上 会 用 几 千 万 或 者 几 亿 来 
表示 ， 产 生 的 距离 差距 是 几 生 万 或 者 儿 亿 ; 而 国土 面积 用 的 是 几 十 或 者 
几 百 来 表示 ， 在 距离 估算 的 过 程 中 几乎 可 以 忽略 国土 面积 参与 计算 的 成 

。 归 一 化 问题 在 聚 类 中 会 比较 常 遇 到 ， 后 面 第 13 间 中 同样 有 这 个 话题 
的 讨论 。 


























关于 参数 这 里 需要 做 一 个 补充 说 明 : 





cls = DBSCAN: 


eps=2000, 


min_samples=1) 


.后 it c 


X) 





这 条 语句 中 有 两 个 参数 ， 一 个 是 eps， 一 个 是 min_samples。 





eps 的 含义 是 设置 一 个 半 值 ， 在 根据 密度 向 外 扩展 的 过 程 中 如 果 发 
现在 这 个 羡 值 距离 范围 内 找 不 到 向 量 ， 那 么 就 认为 这 个 聚 簇 已 经 查找 完 
毕 。 在 这 个 例子 中 设置 的 是 2000， 因 为 归 一 化 以 后 所 有 的 变量 都 落 在 一 
个 10000x10000 的 区 间 单 位 ， 设 置 一 个 2000 的 单位 能 够 充分 把 各 个 聚 艇 
隔 开 ， 如 果 归 一 化 到 1000x1000 的 区 间 单 位 则 应 该 采用 200 作 为 参数 值 ， 
或 者 设置 其 他 参数 值 来 改变 聚 包 的 原则 。 








min_samples 的 含义 古 告诉 算法 聚 秘 最 小 应 该 拥有 多 少 个 向 量 。 如 
果 这 个 数字 设置 为 3， 那 么 算法 会 认为 所 有 小 于 3 个 回 量 的 聚 类 为 噪声 
把 ， 会 在 结果 中 直接 丢弃 。 例 如 ， 在 图 9-6 中 ， 如 果 将 min_samples 设 置 
为 3， 则 右 下 和 角 的 俄罗斯 、 上 面 的 中 国 和 印度 都 将 作为 噪声 点 被 消除 而 


不 会 显示 。 
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9.6 聚 类 评估 





除了 以 上 有 聚 类 的 算法 外 还 有 很 多 聚 类 的 算法 ， 读 者 有 兴趣 可 以 查阅 
相关 的 资料 ， 但 是 总 体 思 路 者 非常 相近 ， 很 多 只 是 在 不 同 场景 下 计算 效 
率 不 同 而 已 。 








但 是 聚 类 的 好 坏 怎 么 判断 呢 ? 聚 类 质量 如 何 判断 呢 ? 下 面 进行 讨 


聚 类 的 质量 评估 包括 以 下 3 个 方面 。 


D 估计 聚 类 的 趋势 。 对 于 给 定 的 数据 集 ， 评 估 该 数据 集 是 否 存 
在 非 随机 结构 ， 也 就 是 分 布 不 均匀 的 情况 。 如 果 直 接 使 用 各 种 算法 套用 
在 样本 上 ， 然 后 返回 一 些 类 艇 ， 这 些 类 禾 的 分 布 很 可 能 是 一 种 错误 的 分 
类 ， 会 对 人 们 产生 误导 。 数 据 中 必须 存在 非 随机 结构 ， 聚 类 分 析 才 是 有 
意义 的 。 





(2) 确定 数据 集中 的 复数 。 上 述 K-Means 算 法 在 一 开始 就 需要 确 
定 类 得 的 数量 ， 并 作为 参数 传递 给 算法 。 这 里 容易 让 人 觉得 有 点 矛盾 ， 
即 人 主观 来 决定 一 个 类 簇 的 数量 的 方法 是 不 是 可 取 。 














(3) Wise RASA ee. HY DA ee OR ERKKA E o 


96.1 KABA 


OR EAS s TA) EAS EEL LN, ASR RAN EA, ASA 


EA RRA EEA IA LAY 








图 9-7 和 图 9-8 都 是 在 二 维 空间 里 的 向 量 样本 ， 图 9-7 所 示 为 随机 样 
本 ， 图 9-8 所 示 为 有 去 类 样本 ， 两 者 的 分 布 样 态 非常 不 同 。 我 们 第 用 霍 
普 金 斯 统计 量 (Hopkins Statistics) 来 进行 量化 评估 。 








图 9-7 随机 样本 





图 9-8 A NEZSREAK 


第 一 步 ， 从 所 有 的 样本 向 量 中 随机 找 n 个 向 量 ， 把 它们 称 为 p 向 量 ， 
每 一 个 向 量 分 别 是 p, 、p， 、..…..、p,。 对 每 一 个 向 量 都 在 样本 空间 里 
找 一 个 离 其 最 近 的 向 量 ， 然 后 求 距离 (用 欧 氏 距离 即 可 )， 然 后 用 x 、 
Xj. sees Xp 来 表示 这 个 距离 。 


第 二 步 ， 在 所 有 样本 向 量 中 随机 找 n 个 向 量 ， 把 它们 称 为 q 同 量 ， 每 
一 个 同 量 分 别 是 qi . qo. ...... «Qo 对 每 一 个 癌 量 都 在 样本 空间 里 找 
其 最 近 的 同 量 ， 然 后 求 距 离 〈 用 欧 氏 距离 即 可 ) ， 然 后 用 yi yo 


第 三 步 ， 求 出 霍 普 金 斯 统计 量 H: 


上 式 中 ， 分 子 束 是 把 所 有 第 二 次 找 出 的 q 癌 量 的 每 个 同 量 的 临近 癌 
量 求 距离 然后 加 和 和。 分母 是 两 项 的 加 和 ， 一 项 是 分 子 ， 一 项 是 p 辣 量 的 
每 个 向 量 的 临近 向 量 的 距离 加 和 。 





如 果 整 个 样本 空间 是 一 个 均匀 的 ， 没 有 到 类 趋势 ( 肥 簇 不 明显 ) 的 
空间 ， 那 么 H 应 该 为 0.5 左 右 。 反 之 ， 如 果 是 有 聚 类 趋势 〈 聚 艇 明显 ) 的 
空间 ， 那 么 H 应 该 接近 于 1。 


霍 普 金 斯 统计 量 不 是 一 个 常用 的 统计 指标 ， 相 关 资 料 较 少 。 在 R 语 


言 里 有 一 个 叫 作 comato 的 包 ， 其 中 clustering.r 这 个 文件 里 会 有 源 代 码 。 
这 里 用 Python 实 现 霍 普 金 斯 统计 量 ， 下 面 先 声明 一 段 公 用 代码 段 。 


霍 普 金 斯 统计 量 计 算 用 代码 : 





#coding=utf-8 
import numpy as np 
from sklearn.cluster import KMeans 
X=[ 
[9670250, 


1392358258], 





# 中 国 














[2980000, 


1247923065], 


TRE 


[9629091. 


317408015]. 





ix 











[8514877. 


201032714]. 





[377873. 


127270000]. 


# 日 本 


[7692024, 


23540517 ]. 


# 澳 大 利 亚 


[9984670, 


34591000]. 


# 加 拿 大 


[17075400， 


143551289]. 


HIRD Hi 


[513115, 


67041000], 











TE 





[181035. 


14805358]. 


HRA 





[99600, 


50400000]. 








# 韩 国 








[120538. 


24052231]] sus 


# 转 换 成 


numpy array 
X = np.array« 


X) 


# 归 一 化 


Xe. 


1] / 17075400.0 * 10000 
b = X[: ， 


1392358258.0 * 10000 


/ 


] 
X = np.concatenate ( 


axis=1) 


( 


pn = X[np.random.choice < 


X.shape[0]. 


replace=False) , 


] 


# 随 机 选 出 


3 个 


221.29671926 
70.59161132 
10000. 


distance min 
for j in X 


914.06072589] 
172.74455667] 
1030.99391392]] 


1000000 


if np.array equal: 


i: 


continue 


distance = np.linalg.norm: 


if distance min » distance 


distance min - distance 


xn.append « 


distance min» 


qn = X[np.random.choice ( 


X.shape[0]. 


replace-False». 


] 

## 随 机 选 出 

3 个 

# [[ 10000. 

# [ 4986.63398808 
# [ 221.29671926 
yn = [] 


for i in qn: 


1030.99391392] 
1443.82893444] 
914.06072589]] 


distance min - 1000000 
for j in X 


if np.array equal: 


continue 
distance - np.linalg.norm: 


if distance min » distance 


distance min - distance 
yn.append« 


distance min» 


H = float « 


np.sum ¢ 


ymo 


np.sum ( 


xn) 


+ np.sum (< 


ymo 


print H 
# 结 果 为 


0.547 059 223 781 


es | 
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hif i EAS TR] EA > BH IER EEN, DE TEK-Means 
这 种 算法 里 一 开始 就 要 求 给 定 要 被 分 成 的 复数 。 况 且 ， 簇 数 的 猜测 也 会 
影响 聚 类 的 结 末 ， 艇 数 太 多 ， 样 本 被 分 成 很 多 小 徐 ， 簇 数 太 少 ， 样 本 基 
本 没有 被 分 开 ， 都 没有 意义 。 





有 的 资料 上 讲 有 一 种 简单 的 经 验 法 就 是 对 于 n 个 样本 的 空间 ， 设 置 
MeMtpJals ， 在 期 望 状态 下 每 个 簇 大 约 有 V7 个 点 。 但 是 这 种 说 法 没有 
找到 太 多 的 依据 ， 只 能 作为 参考 。 


还 有 一 种 方法 叫 “ 肘 方法 ”(The Elbow Method) ， 被 认为 是 一 种 更 
为 科学 的 方式 。 思 路 如 下 。 


尝试 把 样本 空间 划分 1 个 类 、2 个 类 、3 个 类 、..….………. 、 了 nn 个 类 ， 要 确定 
哪 种 分 法 最 为 科学 ， 在 分 成 m 个 类 簇 的 时 候 会 有 一 个 划分 方法 ， 在 这 种 
划分 的 方法 下 ， 每 个 类 禾 的 内 部 都 有 夯 干 个 癌 量 ， 计 算 这 些 同 量 的 空间 
中 心 点 ， 即 计算 这 m 个 类 簇 各 自 的 空间 重心 在 哪里 。 再 计算 每 个 类 禾 中 
每 个 癌 量 和 该 类 艇 重心 的 距离 “大 于 等 于 0) WA. Bam SRR 
目的 距离 和 相 加 得 到 一 个 函数 var (nO , nS AA. 

















可 以 想象 ， 这 个 平方 和 最 大 的 时 刻 应 该 是 分 1 个 类 一 一 也 就 是 不 分 








类 的 时 候 ， 所 有 的 同 量 到 重心 的 距离 都 非常 大 ， 这 样 的 距离 的 和 是 最 大 
的 。 那 么 试 着 划分 成 2 个 类 、3 个 类 、4 个 类 ..….. 随 看 分 类 的 增多 ， 第 m 
次 划分 时 ， 每 个 向 量 到 自己 艇 的 重心 的 距离 会 比 上 一 次 (m-1 次 ) 临近 
的 机 会 更 大 ， 那 么 这 个 距离 和 束 会 总 体 上 缩小 。 极 限 情况 是 最 后 被 分 
n 个 类 和 族 ，n 是 整个 空间 癌 量 的 数量 ， 也 就 是 一 个 向 量 一 个 类 饼 ， 每 个 类 
簇 一 个 成 员 。 这 种 情况 最 后 距离 的 和 束 变 成 了 0， 因 为 每 个 向 量 距 离 自 
己 《 自 己 就 是 重心 ) 的 距离 都 是 0。 














一 | 

















如 图 9-9 所 示 ，m 从 1 次 、2 次 、3 次 .…… 逐 步 往 上 增加 的 过 程 中 ， 整 
个 曲线 的 斜率 会 逐步 降低 ， 而 且 一 开始 是 快速 下 降 的 。 下 降 过 程 中 有 一 
个 拐点 ， 这 一 个 点 会 让 人 感觉 曲线 从 立 陡 变 成 平滑 ， 那 么 这 个 点 就 是 要 
找 的 点 。 这 个 样本 空间 被 分 为 m 个 类 簇 之 后 ， 再 分 成 更 多 的 类 簇 时 ， 
次 的 “收获 ”没有 前 面 每 次 “收获 ”那么 大 ， 此 时 的 m 的 值 就 是 被 认为 最 为 
合适 的 类 艇 数量 。 这 个 点 在 曲线 上 给 人 的 感觉 像 是 人 的 腹 膊 肘 一 样 ， 所 
以 被 形象 地 命名 为 “ 肘 方 法 ”。 例 如 ， 图 9-9 中 的 A 点 或 者 B 点 都 可 以 尝试 
作为 这 个 拐点 。 





TU 


m 


图 9-9 m 与 距离 的 关系 





但 是 这 个 方法 的 时 间 复 杂 上 度 可 能 会 相当 高 ， 因 为 每 一 次 尝试 都 要 计 
算 ， 可 以 用 来 做 一 次 经 验 总 结 或 者 试探 性 的 数据 分 析 ， 但 是 在 线 计 算 时 
不 推荐 使 用 。 而 且 有 时 候 会 发现 这 个 点 可 能 不 是 很 好 确定 ， 这 个 拐 反 不 
清晰 。 这 种 时 候 适 当地 在 计算 效率 和 收益 程度 上 做 一 个 平衡 即 可 ， 不 必 


太 纠结 ， 毕 竞 聚 类 是 一 个 无 监督 的 学 习 。 














我 们 给 出 Python 的 示例 代码 ， 如 下 所 示 : 





# coding=utf-8 
# 面 积 





km2. A 











[9670250, 


1392358258]. 





+h E 














[2980000, 


1247923065], 


HEE 


[9629091, 


317408015], 





# 美 国 











[8514877. 


201032714]. 





[377873. 


127270000]. 


# 日 本 


[7692024, 


23540517 ]. 


# 澳 大 利 亚 


[9984670, 


34591000]. 


# 加 拿 大 


[17075400， 


143551289]. 


# 俄 罗斯 


[513115， 


67041000], 














# 泰 国 


[181035. 


14805358]. 


ARR 


[99600, 


50400000]. 





# 韩 国 











[120538. 


24052231]] £u 


# 转 换 成 


numpy array 
X = np.array« 


X) 


# 归 一 化 


1] / 17075400.0 * 10000 
b = X[: ， 


/ 1392358258.0 * 10000 


] 
X = np.concatenate ( ( 


n clusters = 1 
cls = KMeans ( 


n_clusters) 
fit ¢ 


X) 


Hi Me GA 





cls.cluster_centers_ 
AX HES AAT RII 








cls.labels _ 


# 曼 哈 顿 距离 


def manhattan distance: 


return np.sum« 


abs « 


x-y) ) 


distance_sum = 0 
for i in range: 


n clusters». 


group = cls.labels == i 
members = X[group. 


for v in members 
distance sum += manhattan distance: 
np.array ( 
V) ， 


cls.cluster centers » 


print distance sum 


# 结 果 为 


63 538.244 390 5 


以 上 为 使 用 K-Means 算 法 ， 在 m=1 时 所 计算 的 肘 方法 的 函数 值 ， 如 
果 想 计算 m 为 其 他 值 时 的 结果 ， 则 修改 代码 : 


n clusters = 1 





即 可 得 到 对 应 的 距离 值 。 


9.6.3 测定 聚 类 质量 


在 使 用 前 面 介 绍 的 方法 确定 了 类 艇 的 数量 后 ， 就 可 以 进行 聚 类 了 。 
但 是 即便 类 艇 数量 一 样 ， 聚 类 也 可 能 不 止 一 种 方案 。 





测定 聚 类 质量 的 方法 很 多 ， 一 般 分 为 “外 在 方法 ”和 “内 在 方法 ”两 
种 。 


所 谓 外 在 方法 是 一 种 依 徘 类 别 基准 的 方法 ， 即 已 经 有 比较 严格 的 类 
别 定 义 时 再 讨论 聚 类 是 不 是 足够 准确 。 这 里 通常 使 用 “BCubed 精 
度 "” 和 “BCubed 召 回 率 ”来 进行 衡量 。 但 是 外 在 方法 适用 于 有 明确 的 外 在 
类 别 基 准 的 情况 ， 而 聚 类 是 一 种 无 监督 的 学 习 ， 更 多 是 在 不 知道 基准 的 
状况 下 进行 的 ， 所 以 我 们 更 倾 癌 于 使 用 "内 在 方法 ”。 








“内 在 方法 ”不 会 去 参考 类 艇 的 标准 ， 而 是 使 用 轮廓 系数 (Silhouette 


Coefficient〉 进 行 度量 。 








对 于 有 n 个 向 量 的 样本 空间 ， 假 设 它 被 划分 成 k 个 类 簇 ， 即 C1 C 
、..….….….、Ck 。 对 于 任何 一 个 样本 空间 中 的 向 量 v 来 说 ， 可 以 求 一 个 v 到 
本 类 簇 中 其 他 各 点 的 距离 的 平均 值 a(v) ， 还 可 以 求 一 个 v 到 其 他 所 有 
各 类 簇 的 最 小 平均 距离 ( 即 从 每 个 类 簇 里 挑选 一 个 离 v 最 近 的 向 量 ， 然 
后 计算 距离 》， 求 这 些 距离 的 平均 值 ， 得 到 b GO ， 轮 廓 系数 定义 为 








b(v) — a(v) 


8) — aa at ERR 





一 般 来 说 ， 这 个 函数 的 结果 在 -1 和 1 之 间 。a Cv) 表示 的 是 类 艇 内 
部 的 紧凑 型 ， 越 小 越 紧凑 ， 而 b (v) RANA ARRAN 
程度 。 如 果 函 数值 接近 1， 即 a Cv) 比较 小 而 b (v) 比较 大 时 ， 说 明 包 
含 v 的 类 簇 非常 紧 竣 ， 而 且 远 离 其 他 的 类 秘 。 相 反 ， 如 果 函 数值 为 负 
数 ， 则 说 明 a (v) >b Cv) ，Yv 距 离 其 他 的 类 复 比 距离 自己 所 在 类 艇 的 其 
他 对 象 更 近 ， 那 么 这 种 情况 质量 就 不 太 好 ， 应 该 尽 可 能 避免 。 








为 了 让 聚 类 中 的 类 簇 划 分 更 为 合理 ， 可 以 计算 徐 中 所 有 对 象 的 轮廓 
系数 的 平均 值 ( 但 是 这 个 计算 量 有 可 能 会 相当 大 ， 请 谨慎 使 用 ) ， 然 后 
求 平 均值 。 在 一 种 方案 里 ， 如 有 果 轮 廓 系数 是 负数 那么 可 以 直接 淘汰 ， 如 
果 是 正 数 则 可 以 在 多 个 方案 里 进行 比较 ， 选 择 一 种 轮廓 系数 接近 1 的 方 
和 案 。 但 是 计算 时 占用 较 多 内 存 ， 尤 其 是 在 数据 量 巨大 时 ， 在 使 用 时 请 说 
慎 ， 或 者 使 用 抽样 后 的 数据 进行 计算 。 








下 面 给 出 一 个 用 K-Means 做 完 分 类 后 再 做 聚 类 质量 评估 的 Python 的 
示例 代码 。 


# coding-utf-8 

# encoding=utf-8 

import numpy as n 

from sklearn.cluster import KMeans 
# 面 积 





km2. A 











X-[ 
[9670250, 


1392358258], 





#4 E 














[2980000, 


1247923065]. 


SEDE 


[9629091, 


317408015], 











# 美 国 





[8514877， 


201032714]. 





[377873. 


127270000]. 


# 日 本 


[7692024. 


23540517 ]. 


# 澳 大 利 亚 


[9984670, 


34591000], 


# 加 拿 大 


[17075400， 


143551289]. 


# 俄 罗斯 


[513115， 


67041000]. 





# As [E 











[181035. 


14805358]. 


ARR 


[99600, 


50400000], 





TE 











[120538. 


24052231]] sus 


# 转 换 成 


numpy array 
X = np.array í 


X) 
## 归 一 化 
a = X[: 


1] / 17075400.0 * 10000 
b = X[: ， 


/ 1392358258.0 * 10000 
- np.concatenate (( 


] 
x 
b>), 


axis=1) 
HRPE E 


n_clusters = 3 
cls = KMeans ( 


n clusters» 
.fit < 


X) 


Hi Me GA 





cls.cluster centers 
Xp e BER DIE f 








cls.labels _ 
TES LE ER 


def manhattan distance: 


return np.sum« 


abs < 


X-y) ) 


#a ( 


V) ， 


X[9] 到 其 他 点 的 距离 的 平均 值 





distance sum = 0 
for v in X[1. 


distance sum += manhattan distance: 


np.array ¢ 


X[O]>. 


np.array ( 


WwW) 


av = distance sum / len« 


X[1， 


p 


print av 
#11971 .5037823 
zb « 


V), 


x[0] 
distance_min = 100000 
for i in range « 


n clusters». 


group = cls.labels == i 


members - X[group. 


for v in members 


if np.array equal: 


x[0p .: 


continue 
distance - manhattan distance: 


np.array ( 


V), 


cls.cluster centers » 


if distance min » distance: 


distance min - distance 
bv - distance sum / n clusters 
print bv 
#43895 .5138683 
sv = float « 


av, 


print sv 
#0.727272727273 





在 这 种 分 类 方案 下 ， 得 到 的 轮廓 系数 约 为 0.727， 如 果 找 不 到 更 好 
ROACHES. WAR, WERE BARES, Henk 
其 他 类 禾 值 ， 然 后 全 看 轮廓 系数 。 





n_clusters = 3 
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聚 类 这 一 章 的 内 容 是 机 器 学 习 中 探索 性 较 强 的 一 章 ， 是 一 类 用 归纳 
方式 来 进行 认 知 和 观察 的 方法 体系 。 应 该 说 聚 类 在 我 们 发 现 和 总 结 观 察 
对 象 的 共性 和 规律 方面 还 是 有 很 多 应 用 场景 的 ， 例 如 在 癌 量化 相对 完整 
的 前 提 下 找 出 忠诚 客户 的 共性 、 找 出 流 式 客户 的 共性 、 找 出 括 似 在 业务 
场景 中 作 整 的 个 案 等 ， 这 些 都 可 以 洽 试 使 用 聚 类 的 方法 进行 发 握 和 分 
析 。 请 大 家 灵活 运用 。 





第 10 章 ”分 类 





分 类 算法 是 机 器 学 习 中 的 一 个 重点 ， 也 是 人 们 第 说 的 “有 监督 的 学 
'。 这 是 一 种 利用 一 系列 已 知 类 别 的 样本 来 对 模型 进行 训练 调整 分 类 
的 参数 ， 使 其 达到 所 要 求 性 能 的 过 程 ， 也 称 为 监督 训练 或 有 教师 学 


B M 


M 





换 句 话说 ， 首 先知 道 大 量 的 样本 对 象 ， 并 且 知 道 这 些 样 本 对 象 
的 “特征 ?和 所 属 类 别 ， 把 这 些 数据 告诉 计算 机 ， 让 计算 机 总 结 分 类 的 原 
则 ， 形 成 一 个 分 类 模型 ， 再 把 新 的 待 分 类 或 者 说 未 知 分 类 的 样本 交 给 


它 ， 让 它 完成 分 类 过 程 。 











也 就 是 说 ， 先 用 一 部 分 有 种 种 特征 的 数据 和 每 种 数据 归属 的 标识 来 
训练 分 类 模型 ， 当 训练 完毕 后 (等 于 计算 机 学 会 了 应 该 怎么 分 类 ) ， 再 
让 计算 机 用 这 个 分 类 模型 来 区 分 新 的 “ 没 见 过 ”的 只 有 “特征 ” 没有 类 别 
标识 的 样本 ， 完 成 该 样本 的 分 类 。 











所 以 所 有 的 分 类 算法 不 管 怎 么 变 ， 郑 是 在 解决 :“ 茶 样本 是 茶 对 
象 ， 某 样本 不 是 某 对 象 ” 的 概率 问题 。 请 注意 ， 这 里 用 的 是 概率 问题 的 
bis. AAMT HRA, FARR AINE RES RA”, AB OM 
AAS EL, DE AAAS HTT EL T. 








分 类 和 回归 看 上 去 有 一 些 相似 之 处 ， 从 直观 感 党 上 去 认识 ， 可 以 这 





么 感觉 : 因 变 量 是 定量 型 的 归纳 学 习 称 为 回归 ， 或 者 说 是 连续 变量 预 
测 ;， 因 变量 是 定性 型 的 归纳 学 习 称 为 分 类 ， 或 者 说 是 离散 变量 预测 。 





从 实时 收集 的 路 况 来 预测 茶 地 段 目 前 的 行车 速度 为 多 少 米 每 秒 是 典 
型 的 回归 归纳 过 程 ， 而 预测 这 个 路 段 的 行车 状态 是 “畅通 *"、“ 繁 
忙 ”、“ 拥 堵 * 则 是 典型 的 分 类 归纳 过 程 。 





分 类 算法 是 一 大 类 算法 ， 都 是 用 来 解决 这 种 离散 变量 预测 的 ， 举 例 
如 下 。 


在 银行 的 信用 卡 审批 这 一 环节 会 用 到 分 类 的 例子 ， 应 不 应 该 给 一 个 
人 办 理 信用 卡 呢 ? 应 该 给 一 个 申请 人 分 配 多 少 金额 呢 ? 尤其 在 有 大 量 的 
申请 人 及 调 额 申请 的 情况 下 。 在 这 里 会 比较 密集 地 用 到 分 类 算法 。 在 此 
只 示意 性 地 进行 说 明 ， 毕 竟 这 个 过 程 非常 复杂 ， 而 且 不 同 银行 的 计算 原 
则 也 不 尽 相 同 。 











首先 ， 办 理 信 用 卡 时 ， 银 行 会 收集 很 多 信息 ， 除 了 身份 证 上 的 姓 
名 、 年 龄 外 ， 婚 姻 状 况 、 工 作 类 别 、 年 薪 、 是 否 有 房产 、 是 否 有 汽车 、 
教育 情况 等 都 在 收集 之 列 。 在 大 量 的 历史 信息 中 ， 银 行 会 根据 统计 规律 
得 出 一 个 诸如 : 

















适合 办 卡 =〈 年 龄 ， 婚 姻 状 况 ， 工 作 类 别 ， 年 新， 是 否 有 房产 ， 是 
AA, BATH) 的 函数 。 


“适合 办 卡 ” 这 个 值 就 只 有 两 个 ， 一 个 是 1 QÉSO. AE AiG 
A) 。 而 函数 f 的 计算 过 程 是 为 了 保证 这 个 办 理 与 否 的 评判 更 加 合理 
的 。 也 就 是 说 ， 是 不 是 适合 办 理 ， 是 银行 在 用 自己 的 账目 风险 和 办 理 人 
的 信用 做 一 个 权衡 。 在 统计 训练 的 过 程 中 ， 把 那些 符合 信誉 良好 的 
人 群 特征 驾 别 出 来 ， 这 样 再 有 申请 信用 卡 的 人 出 现时 ， 就 按照 统计 规律 
判断 ， 这 个 人 的 特征 是 更 像 那些 讲 信用 的 人 还 是 那些 不 讲 信 用 的 人 ， 然 
后 做 出 是 否 办 理 的 判断 。 


而 在 赋予 额度 时 也 有 同样 的 问题 ， 同 样 要 对 这 些 属 性 进行 评 佑 ， 其 
至 包括 历史 账 务 记录 是 否 都 为 健康 记录 。 





然后 ， 计 算 机 根据 分 类 算法 会 得 到 一 个 诸如 : 











AUZE CFR, WAR, LERI, FA ESAR ÆRA 
汽车 ， 教 育 情况 ， 账 务 记 录 ) 的 函数 。 


这 个 函数 看 上 去 更 像 回归 的 学 习 方 法 ， 因 为 这 个 额度 是 一 个 具体 的 
值 ， 更 像 连续 值 域 的 函数 ， 所 以 判断 成 一 个 回归 分 析 也 未 尝 不 可 ， 只 要 
后 面 这 些 自 变量 都 能 数值 化 。 








说 到 额度 应 该 是 多 少 ， 是 多 点 好 还 是 少 点 好 ， 这 还 是 一 个 平衡 性 的 
问题 。 对 于 每 种 不 同 的 “人 和 群 ?来 资 ， 他 们 对 额度 的 需求 实际 上 是 不 同 
的 ， 这 种 额度 应 该 是 他 消费 需求 的 客观 需要 同时 也 是 可 承担 的 一 个 限制 
值 。 额 度 给 得 过 低 ， 会 抑制 信用 卡 的 使 用 影响 银行 的 业绩 ， 毕 竞 有 很 多 

















大 额 的 消费 无 法 文 付 ， 而 额度 给 得 过 高 ， 会 让 银行 的 风险 变 得 过 大 ， 因 
为 坏账 变 多 也 难以 避免 。 


经 过 训练 后 的 模型 会 得 到 一 个 相对 比较 合理 的 额度 值 ， 既 符合 该 人 
群 特征 的 消费 额度 需求 ， 又 能 够 兼顾 风险 的 保障 。 从 中 得 到 的 一 个 样本 
的 特征 和 最 后 额度 之 间 的 关系 ， 其 实 束 是 判定 这 个 样本 是 否 应 该 为 条 额 
度 的 概率 最 高 。 




















分 类 应 用 的 场景 比 聚 类 其 实 要 多 得 多 ， 那 么 分 类 的 训练 算法 有 多 少 
种 呢 ? 非常 多 ， 而 且 很 多 算法 有 变种 或 者 往生 算法 ， 说 有 几 百 种 也 不 大 
张 ， 我 们 在 这 里 只 介绍 一 些 最 为 经 典 和 普 适 的 方法 。 





10.1 朴素 贝 叶 斯 


托马斯 : 贝 叶 斯 《Thomas Bayes， 约 1701~1761 年 ) ， 主 业 为 牧师 ， 
副业 为 数学 家 (图 10-11 1 ) 。 他 在 数学 方面 的 主要 贡献 在 概率 论 上 ， 他 
首先 将 归纳 推理 法 用 于 概率 论 基础 理论 ， 并 创立 了 贝 叶 斯 统计 理论 ， 在 
统计 诀 策 函数 、 统 计 推 新 、 统 计 的 估算 等 领域 做 出 了 日 越 的 贡献 。1763 
年 发 表 了 名 为 《机 会 学 说 中 一 个 问题 的 解 》 论 著 ， 对 于 现代 概率 论 和 数 
理 统计 都 有 很 重要 的 作用 。 贝 叶 斯 的 另 一 着 作 《 机 会 的 学 说 概论 》 发 表 
T17584F. 





SE C v 


图 10-1 托马斯 : 贝 叶 斯 


贝 叶 斯 决策 理论 是 主观 贝 叶 斯 派 归 纳 理论 的 重要 组 成 部 分 。 


贝 叶 斯 决策 理论 方法 是 统计 模型 决策 中 的 一 个 基本 方法 ， 基 本 思想 
如 下 


D 己 知 类 条 件 概 率 密 度 参数 表达 式 和 先 验 概率 。 


(2) 利用 贝 叶 斯 公式 转换 成 后 验 概率 。 


(3) 根据 后 验 概率 大 小 进行 决 集 分 类 。 


简单 地 次， 朴素 贝 叶 斯 算法 是 利用 统计 中 的 “条 件 概 率 ” 来 进行 分 类 
的 一 种 算法 。 前 面 的 章节 介绍 的 古典 概 型 的 概率 计算 方法 ， 惑 是 扔 硬币 
的 那 种 ， 穷 举 出 所 有 的 情况 ， 然 后 看 看 每 种 情况 的 占 比 ， 这 部 是 基于 排 
列 组 合 的 思路 去 做 概率 分 析 。 








朴素 贝 叶 斯 分 类 的 方式 不 太一 样 。 贝 叶 斯 概率 研究 的 是 条 件 概率 ， 
也 就 是 研究 的 场景 惑 是 在 带 有 茶 些 前 提 条 件 下 ， 或 者 在 东 些 背景 条 件 的 
约束 下 发 生 的 概率 问题 。 








我 们 先 给 出 这 个 著名 的 贝 叶 斯 公式 : 


WD Ds essa 、D, 为 样本 空间 $ 的 一 个 划分 ， 如 果 以 P CD, ) 
表示 DD, 发生 的 概率 ， 且 P (Dj) >0 (Ci=1，2，...，n) 。 对 于 任何 一 个 
事件 x，P GO 0, WA 


P(x|D,)P(D,) 


» P(x | D,)P(D,) 
i=l 


PD; |x) = 


解释 如 下 。 








在 一 个 样本 空间 里 有 很 多 事件 发 生 ，D; 就 是 指 不 同 的 事件 划分 ， 并 
且 用 D; 可 以 把 整个 空间 划分 完毕 ， 在 每 个 D; 事件 发 生 的 同时 都 记录 事 
件 x 的 发 生 ， 并 记录 Di 事件 发 生 下 x 发 生 的 概率 。 等 式 右 侧 的 分 母 部 分 就 
FED, 发 生 的 概率 和 Di 发 生 时 x 发 生 的 概率 的 加 和 ， 所 以 分 母 这 一 项 其 实 
就 是 在 整个 样本 空间 里 x 发 生 的 概率 。P CD, |x) 这 一 项 是 指 x 发 生 的 情 
况 下 ，D 发 生 的 概率 。 不 难看 出 ， 左 侧 和 右 侧 分 母 项 相 乘 得 到 的 是 在 全 
样本 空间 里 ， 在 x 发 生 的 情况 下 又 发 生 D, 的 情况 的 概率 。 右 侧 分 子 部 分 
的 含义 是 Di 发 生 的 概率 乘 以 D 发 生 的 情况 下 又 发 生 x 的 概率 。 








所 以 最 后 等 式 两 边 就 化 简 为 
P(D,\x)P(x) = P(x|D,)P(D;) 
也 就 是 说 ， 在 全 样本 空间 下 ， 发 生 x 的 概率 乘 以 在 发 生 x 的 情况 下 发 
“ED; 的 概率 ， 等 于 发 生 Di 的 概率 乘 以 在 发 生 Di 的 情况 下 发 生 x 的 概率 ， 
如 图 10-2 所 示 。 


图 10-2 条件 概率 示意 图 


左 侧 的 圈 是 x 发 生 的 概率 ， 右 侧 的 圈 是 Di 发 生 的 概率 ， 中 间 交 集 的 


部 分 就 是 等 号 两 边 各 上 自 表 示 的 内 容 。 





贝 叶 斯 分 类 器 通常 是 基于 这 样 一 个 假定 : “给 定 目标 值 时 属性 之 间 
相互 条 件 独立 ”。 
基于 这 种 “朴素 "的 假定 ， 贝 叶 斯 公式 一 般 简写 为 
P(A|B)P(B)-P(B|A)P(A) 


Naive 


上 式 也 称 为 朴素 贝 叶 斯 公式 算法 、 定 理 、 分 类 模型 》 





Bayesian. 
在 有 的 资料 上 ， 会 看 到 如 下 说 法 。 


P CAD 叫做 A 事 件 的 先 验 概率 ， 就 是 一 般 情况 下 ， 认 为 A 发 生 的 概 
x. 


P (BIA) 叫做 似 然 度 ， 征 A 假 设 条 件 成 立 的 情况 下 发 生 B 的 概率 。 


P AB) SUSU Im ES, FEBACEMTHOL FREARK, (BUE 
要 计算 的 概率 。 


P (BO 叫做 标准 化 第 量 ， 和 A 的 先 验 概率 定义 类 似 ， 束 是 一 般 情 况 
下 ，B 的 发 生 概率 。 





朴素 贝 叶 斯 分 类 器 是 在 机 器 学 习 中 应 用 最 广泛 的 一 种 分 类 器 。 与 其 
说 这 是 一 个 公式 ， 不 如 说 这 是 一 种 思想 或 者 思维 方式 ， 在 人 们 生产 生活 
中 使 用 朴素 贝 叶 斯 分 类 需 的 思维 解决 问题 比 直 接 套 用 公 邢 的 机 会 多 得 
多 。 


[1] 图 片 来 源 于 百度 图 库 。 


10.1.1 ^B] Tort 








天 气 预 报 一 般 是 基于 天 气 图 、 卫 星云 图 和 雷达 图 来 做 的 ， 预 报 的 内 
容 很 多 ， 如 降水 情况 、 风 力 、 风 问 等 。 








大 气 变 化 是 混沌 的 (Chaotic) 这 一 瞬间 的 天 气 情况 会 由 于 之 后 
一 系列 不 可 预测 的 扰动 行为 而 变 得 不 可 预测 。 也 可 以 说 ， 即 便 两 个 完 
一 模 一 样 的 瞬时 大 气 状 况 ， 由 于 之 后 一 系列 不 可 预测 的 行为 不 断 进行 干 
扰 而 产生 完全 两 种 截然 不 同 的 天 气 结果 。 所 以 有 那么 一 句 话 :“ 亚 马 壕 
雨林 一 只 蝴蝶 翅膀 侦 尔 振动 ， 也 许 两 周 后 就 会 引起 美国 得 元 院 斯 州 的 一 
场 龙 郑 风 。” 这 是 20 世 纪 70 年 代 ， 美 国 一 个 名 叫 洛 伦 效 的 气象 学 家 在 解 
释 空 气 系统 理论 时 做 的 一 个 形象 的 比喻 ， 后 来 这 个 说 法 被 形象 地 称 
为 “蝴蝶 效应 ”。 




















天 气 的 预测 是 非常 困难 的 ， 变 化 快 且 计 算 量 巨 大 ， 所 以 人 们 虽然 总 
在 埋 忽 气象 台 预 报 不 准确 却 没 有 什么 有 效 的 办 法 做 出 实质 性 的 改进 。 就 
好 像 在 这 一 刻 预 测 明 天 一 天 会 打 几 个 电话 一 样 ， 问 题 是 不 知道 明天 会 打 
儿 个 电话 ， 也 不 知道 会 不 会 需要 打 电 话 给 别人 ， 也 同样 不 知道 别人 会 不 
会 打 电 话 找 上 自己， 未 知性 在 这 个 场景 里 是 绝对 性 的 。 但 是 ， 在 预测 天 气 
时 还 是 有 一 些 手 段 可 以 尝试 的 。 





曾经 有 一 段 时 间 ， 在 天 气 预报 中 有 一 种 说 法 叫做 “降水 概率 ”， 如 明 


天 天 气 阴 转 多 云 降 水 概率 409%。 很 多 人 在 听 到 这 样 的 预报 时 不 知 所 
云 ,，“ 降 水 概率 40%， 那 明天 到 压 是 下 雨 还 是 不 下 雨 ? 真是 一 种 不 负责 
任 的 说 法 。” 其 实 气 象 台 说 的 是 一 个 确定 的 事情 。 





在 长 期 研究 天 气 变 化 的 过 程 中 ， 会 发 现 极 问 的 变化 还 是 少数 ， 大 部 
分 的 天 气 变 化 有 一 定 的 规律 可 循 。 虽 然 确实 不 知道 未 来 大 气 变 化 的 具体 
情况 ， 但 是 还 是 有 一 些 经 验 可 以 借鉴 的 ， 如 今天 天 气 非 第 阴沉 ， 那 下 雨 
的 可 能 性 残 是 比 啊 晴 白 日 的 时 候 大 很 多 。 利 用 统计 学 知识 和 手段 ， 从 大 
量 的 历史 数据 中 可 以 答 试 做 出 一 个 由 叶 斯 分 类 模型 ， 从 而 判断 出 降水 概 
率 一 一 依据 现在 的 大 气 状 况 ， 未 来 24 小 时 降水 概率 为 多 少 。 




















为 了 简化 说 明 过 程 ， 示 意 性 地 只 列 出 一 个 地 区 10 天 中 每 一 天 的 天 气 
情况 ， 如 表 10-1 所 示 。 








#210-1 一 个 地 区 10 天 中 每 一 天 的 天 气 情况 


日 期 天 气 情 况 
l il 
2 阴 
3 降水 
4 BH 
5 降水 
6 ilt 
7 Il 
8 多 云 
9 降水 

10 降水 


根据 这 10 天 的 天 气 情况 来 看 ，10 天 里 面 降 水 4 次 ， 也 就 是 降水 概率 
40%， 这 是 从 全 部 统计 的 数据 来 看 的 。 但 是 如 果 当 天 是 阴 天 呢 ? HRK 
日 期 为 2>、4 两 天 ， 它 们 的 第 二 天 都 是 降水 ， 所 以 当天 是 阴 天 的 情况 下 ， 
降水 概率 为 2+2=100%。 


RA 

P(D,|x)P(x) = P(x|D,)P(D,) 
P (x) 就 是 阴 天 的 概率 ， 为 20%。 
P (D) 就 是 降水 的 概率 ， 为 40%。 


P (x[Di ) 指 的 是 降水 的 前 一 天 是 阴 天 的 概率 ， 为 50%。 


P (D; po 是 要 求 的 当天 为 阴 天 ， 第 二 天 降水 的 概率 ， 算 出 来 为 
10096. 


如 琳 当 天 是 晴天 呢 ? 晴 天 的 日 期 为 1 、6、7， 而 晴天 的 第 二 天 的 天 
气 情况 分 别 是 了 明 、 上 晴 、 多 云 ， 降 水 概率 为 0%。 


代入 公式 : 
P(D,\x)P(x) = P(x|D,)P(D)) 
P (x) 就 是 晴天 的 概率 ， 为 30%。 
P (D) 就 是 降水 的 概率 ， 为 409%。 
P (x[D; ) 指 的 是 降水 的 前 一 天 是 晴天 的 概率 ， 为 0%。 


P (D; |x) 是 要 求 的 当天 为 晴天 ， 第 二 天 降水 的 概率 ， 算 出 来 为 
096. 


同样 ， 如 果 当 天 是 上 晴天， 第 二 天 天 气 为 多 云 的 概率 为 33%， 为 晴天 
的 概率 为 33%， 为 阴 的 概率 同样 为 33%。 


再 回 过 来 看 气象 台 报 的 “明天 降水 概率 40%” 就 能 理解 了 吧 ， 从 历史 
角度 来 看 真 的 就 是 有 40% 的 天 气 会 降水 还 有 609% 不 会 降水 。 











其 实在 天 气 预测 中 的 参数 复杂 得 多 ， 不 仅 是 当天 的 天 气 这 么 简单 的 





一 个 变量 ， 而 且 温 度 、 湿 度 、 季 节 、 风 速 等 因素 ,统计 的 日 期 也 肯定 不 
是 10 天 这 么 少 的 样本 ， 肯 定 是 长 期 的 天 气 样本 信息 ， 这 些 因素 的 多 少 直 
接 决 定 了 模型 的 复 洒 程度 。 下 面 将 给 出 一 段 用 Python 进 行 实 现 的 代码 。 











在 给 出 代码 之 前 要 补充 说 明 一 下 ， 在 Python 的 Scikit-learn 库 中 虽然 
对 朴素 贝 叶 斯 分 类 算法 做 了 实现 ， 但 是 对 于 建 模 针对 性 的 问题 ， 分 别 做 
了 以 下 几 种 贝 叶 斯 分 类 的 变种 模型 封装 。 











(1) 高 斯 朴素 贝 叶 斯 (Gaussian Naive Bayes) ; 
(2) 多 项 式 朴 素 贝 叶 斯 CMultinomial Naive Bayes) ; 
(3) AZAA (Bernoulli Naive Bayes) 。 


这 3 种 训练 的 方式 非 第 相近 ， 引 用 时 所 写 的 代码 也 非常 简短 。 其 
中 ， 高 斯 朴 么 由 叶 斯 是 利用 高 斯 概率 密度 公式 来 进行 分 类 拟 合 的 。 多 项 
式 朴素 贝 叶 斯 多 用 于 高 维度 癌 量 分 类 ， 最 各 用 的 场景 是 文章 分 类 。 们 努 
利 朴素 贝 叶 斯 一 般 是 针对 布尔 类 型 特征 值 的 问 量 做 分 类 的 过 程 。 











本 例 使 用 高 斯 朴素 贝 叶 斯 模型 ， 代 码 如 下 : 





from sklearn.naive bayes import GaussianNB 
#0: ni 


1: 阴 


2: 降水 


data table = [["date", 


"weather" ]. 

[1. 
0]. 

[2. 
1]. 

[3. 
2]: 

[4 
1]. 

[5. 
2]. 

[6. 
0]. 

[7. 
0]. 


[8. 


3]. 


[9. 


1], 


[10, 


1]] 
# 当 天 的 天 气 


X = [[0]. 


[4]. 


[2]. 


[1]. 


[2]; 


[0]. 


[0]. 


[3]. 


[11] 
# 当 天 的 天 气 对 应 后 一 天 的 天 气 


1] 
# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 





clf = GaussianNB © 


.fit« 


y) 


p = [I11] 
print clf.predict: 


p? 


10.1.2 ”疾病 的 预测 








在 百度 中 输入 “基因 测序 ”进行 搜索 ， 会 发 现 很 多 公司 承接 基因 测 厅 
的 工作 ， 其 中 也 有 一 些 面向 一 般 个 人 的 测序 工作 。 测 试 完成 以 后 ， 这 些 
公司 会 给 出 一 个 比较 完整 的 报告 ， 里 面 记载 着 这 些 基 因 的 各 种 相关 信 
息 。 





其 中 ， 有 一 些 关 于 性 格 、 身 高 、 血 型 等 的 数据 ， 由 于 人 们 在 成 长 的 
过 程 中 己 经 比较 了 解 自己 的 这 些 信息 了 ， 所 以 似乎 不 会 太 关 心 。 但 是 有 
一 些 内 容 还 是 会 比较 关心 的 ， 如 关于 钵 患 疾病 的 预测 一 一 乌 患 冠 心病 的 
概率 为 20%， 恰 患 阿 尔 兹 海 默 综合 征 的 概率 为 5%， 和 忧患 帕 金 森 氏 病 的 概 
率 为 129% 等 。 这 些 就 是 通过 基因 测序 得 到 的 预测 结论 。 





这 个 预测 过 程 也 是 一 个 分 类 过 程 ， 训 练 样本 是 大 量 的 个 体 基 因 信息 
和 个 人 的 疾病 信息 。 然 后 通过 建 模 分 析 ， 最 后 得 到 一 个 基因 片段 和 答 患 
疾病 之 间 的 概率 转换 关系 ， 这 也 是 一 个 比较 典型 的 材 系 贝 叶 斯 分 类 模 
型 。 





示意 性 地 做 一 个 训练 过 程 ， 训 练 样本 如 表 10-2 所 示 。 


表 10-2 ”训练 样本 

















EA 基因 片段 A | 基因 片段 B | 高 血压 | 胆 结石 hA 基因 片段 A | 基因 片段 B | 高 血压 | 胆 结石 
1 1 1 是 in 1 0 f 是 
2 0 0 AP 是 7 0 1 是 是 
3 0 1 an f 8 0 0 f zn 
4 1 0 f f 9 1 0 是 an 
5 1 1 f È 10 0 1 f 是 






































假设 能 够 得 到 一 个 关于 病 患 所 得 的 疾病 和 基因 片段 之 间 的 关系 记 
录 ， 这 是 一 个 客观 统计 的 结果 。 需 要 注意 的 是 ， 这 种 记录 是 忽略 其 他 建 
模 因素 的 记录 ， 如 这 位 病 患 所 生活 的 城市 、 所 从 事 的 工作 、 是 否 有 烟 酒 
习惯 等 ， 这 些 因 系 是 没有 参与 建 模 的 ， 直 接 假设 恰 患 这 些 疾病 只 和 基因 
状况 有 关 。 





如 果 有 一 个 用 户 来 做 基因 测序 ， 测 试 结果 为 基因 片段 A、B 分 别 为 
1、0， 那 么 他 纵 患 高 血压 和 胆 结石 两 种 疾病 的 概率 分 别 为 多 少 ? 


在 这 个 例子 里 ， 需 要 明确 以 下 公式 : 


P(B| A)P(A) 


P(A|B)- 
(A|B) PB) 
式 中 的 每 个 值 分 别 指 代 什 么 ? BATES S LH XS BS] TEE AGES 7491 : 


P CAO 是 先 验 概率 ， 即 全 局 性 的 高 血压 乌 串 概率， 在 10 个 人 中 有 3 
个 人 患 病 ， 即 概率 为 3/10。 


P (BIA) 是 似 然 度 ， 表 示 高 血压 患者 中 基因 古 “10” 型 的 患者 数量 。 





在 3 位 高 血压 患者 中 只 有 1 位 患者 的 基因 是 “10” 型 ， 即 概率 为 1/3。 








P (BO 是 标准 化 常量 ， 是 “10” 型 基因 出 现 的 概率 ， 在 10 个 人 中 出 现 
3 例 ， 即 概率 为 3/10。 


P (AJB) 可 以 代入 求解 ， 得 到 1/3。 


交叉 验证 一 下 ， 先 看 全 局 中 所 有 的 “10” 型 基因 的 患者 ， 有 3 位 ， 即 4 
号 、6 号 和 9 号 。 得 高 血压 的 只 有 9 号 一 人 ， 所 以 从 这 个 角度 去 计算 也 是 
1/3. 














下 面 给 出 完整 的 训练 和 分 类 的 代码 示例 : 





# 基 因 片 段 
A 基因 片段 


B 高 血压 胆 结石 


#1: 


data_table = [ 
[1. 


9]. 


[0. 


1], 


[0. 


0]. 


[1. 


0]. 


[1. 


1], 


[1, 


1] 


[0. 


1] 


[0. 


9]. 


[1. 


0]. 


[0. 


1] 
] 
# 基 因 片 段 


x = [[1， 


1]] 


# 高 血压 


yi = [1 


9] 
# 训 练 


clf = GaussianNB © 


.fit < 


y1) 


# 预 测 


p = [[1. 


0]] 
print clf.predict: 


p» 


1] 
HIR 


clf - GaussianNB O 


.fit c 


y2) 


# 预 测 


p = [[1. 


0]] 
print clf.predict: 


# 结 果 为 








当 模 型 中 有 更 为 丰富 的 信息 ， 如 加 入 生活 的 城市 、 从 事 的 工作 、 是 
含有 烟 酒 习惯 ， 还 可 以 加 入 是 否 多 盐 、 是 否 多 糖 等 饮食 习惯 等 内 容 来 丰 


这 个 模型 。 





101.3 2 EE 
在 本 章 的 最 后 ， 我 们 先 不 管 算法 ， 也 不 管 各 种 公式 ， 我 们 就 看 看 由 
叶 斯 理论 体系 是 在 干什么 ? 


在 我 看 来 ， 贝 叶 斯 的 理论 体系 其 实 揭示 的 是 一 种 非常 典型 的 人 类 目 
身 的 推测 逻辑 行为 。 





例如 ， 在 黄昏 的 时 候 走 在 自己 居住 的 小 区 里 ， 光 线 很 昏暗 ， 前 面 突 
然 内 过 一 个 影子 ， 从 路 一 边 的 草 从 蹄 到 男 一 边 ， 速 度 较 快 体型 较 大 ， 其 
他 信息 没 捕捉 到 。 这 时 候 大 概 会 猜测 ， 这 有 可 能 是 一 只 较 大 的 家 大 。 
如 果 是 在 非洲 大 草原 上 ， 从 越野 车 里 同样 看 到 昏暗 的 草原 上 蹄 过 一 个 速 
度 较 快 体型 较 大 的 动物 ， 也 许 会 猜测 那 是 一 头 狮 子 ， 或 者 一 头 猎豹 。 这 
两 种 猜测 对 于 捕 换 到 的 对 象 信息 都 是 非常 有 限 的 ， 而 且 内 容 相 近 ， 但 是 
得 出 两 种 不 同 的 推测 。 原 因 很 简单 ， 残 是 因为 当时 的 环境 不 同 ， 导 致 的 
两 种 事件 的 概率 不 同 ， 带 有 比较 明确 的 倾 癌 性 。 也 就 是 说 ， 正 常人 的 多 
辑 推断 不 会 和 上 述 例 子 相 反 ， 不 会 在 小 区 里 推 师 出 现 狮 子 或 者 猎豹 ， 也 
不 会 推断 在 非洲 大 草原 上 出 现 家 犬 。 这 种 推 凯 的 思路 或 者 方式 本 和 喘 就 是 
贝 叶 斯 理论 体系 的 核心 内 容 。 


z 

















朴素 贝 叶 斯 是 一 种 机 器 学 习 的 思想 ， 而 不 是 一 个 简单 的 直接 套用 的 
公式 。 而 且 在 用 朴素 贝 叶 斯 方式 进行 分 类 机 需 学 习 时 还 经 闻 需 要 使 用 其 





他 一 些 辅助 的 建 模 手 段 。 朴 素 贝 叶 斯 在 生产 生活 中 作为 机 器 学 习 手 段 的 
场景 确实 非常 多 ， 是 一 种 使 用 很 广泛 的 方式 ， 所 以 也 很 重要 。 后 续 章 市 
将 会 介绍 用 村 素 贝 叶 斯 算法 进行 文章 分 类 ， 硕 望 读 者 能 够 灵活 掌握 。 


10.2 ”决策 树 归纳 








决策 树 也 是 一 种 第 用 的 方式 ， 这 种 方式 几乎 是 人 们 可 以 无 师 目 通 
的 。 








在 平时 做 决定 的 时 候 常 常 也 会 有 一 些 原则 尺度 可 以 用 一 棵 树 来 表 
示 ， 下 面 举 两 个 小 例子 。 





假如 一 个 务 生 安排 休 奶 日 的 活动 时 思路 如 图 10-3 所 示 。 


Ak A f= 
He: 看 电影 


能 : 打球 不 能 : 约 吃饭 


;能 ， 找 游戏 





图 10-3 ”安排 活动 的 思路 


按照 优先 程度 : 





如 果 能 约会 就 去 看 电影 ， 


各 不 能 ， 如 有 果 能 约 到 球 友 就 去 打球 ， 


若 不 能 ， 如 果 能 约 到 饭 友 就 去 下 馆子 ， 





右 不 能 ， 如 果 有 好 片子 就 自己 看 ， 


AA KE, MRA IIIR A GD, 


右 不 能 ， 这 些 都 没有 那 就 在 家 睡觉 。 


这 其 实 束 是 一 个 比较 典型 的 决策 树 ， 一 个 样本 ， 如 某 一 天 具体 的 客 
观 情况 ， 从 树 根 ( 树 是 倒 着 从 上 往 下 长 的 ， 但 也 可 以 画 成 从 下 往 上 、 从 
左 往 右 、 从 石 往 左 ， 不 影响 逻辑 的 表达 ) 开始 一 步 一 步 最 后 沙 入 决 集结 
果 。 





再 如 茶 大 龄 女 青 年 在 相 杀 网 站 进行 海 选 ， 因 为 资源 太 多 而 自己 精力 
有 限 ， 所 以 肯定 是 要 进行 相亲 决策 的 ， 如 图 10-4 所 示 。 








[年龄 与 35 岁 相 比 | 
| 
Y Y 
IWF: AEWA 20 万 元 相 比 | 





























: 硕士 学 历 小 : 硕士 学 历 


| | 























Y 
| | BF: 身高 与 | “| 以 下 : 身高 与 
以 上 : Wü 以 上 : Wü 
is 175 cm 相 比 E 180 cm 相 比 
以 上 : 见面 以 下 : 不 见 [以 上 : 见面 | | 以 下 : 不 见 





图 10-4 ”相亲 决策 
年 龄 35 以 上 直接 拉 黑 ， 年 龄 35 以 下 可 以 考虑 见面 。 


年 收入 20 万 元 以 上 的 ， 属 于 比较 有 能 力 的 高 质量 男性 ， 其 他 条 件 可 
以 适当 放宽 。 

如 果 学 历 为 硕士 以 上 ， 身 高 不 够 175cm 也 可 以 ; 如 果 学 历 为 本 科 及 
以 下 ， 那 么 身高 必须 在 175cm 以 上 。 

如 果 年 收入 20 万 元 以 下 ， 要 看 是 不 是 “潜力 股 ”， 或 者 颜 值 是 否 够 
高 。 


如 果 学 历 为 硕士 以 上 ， 不 够 180cm 身 高 也 可 以 ; 如 果 学 历 为 本 科 及 
以 下 ， 那 么 身高 必须 在 180cm 以 上 。 





本 例 同 样 是 根据 样本 一 一 对 该 大 龄 女 青 年 打招呼 的 男性 的 情况 从 树 

















根 开 始 走 决 俩 树 ， 最 后 决定 是 相亲 还 是 不 相亲。 当然 实际 生活 中 相亲 的 
条 件 还 是 很 复杂 的 ， 尤 其 还 要 靠 “ 眼 缘 ” 这 种 超级 难 量化 的 东西 ， 哪 是 这 
么 一 张 图 这 两 三 个 条 件 就 全 都 表达 清楚 。 特 别 声明 一 下 ， 本 人 对 年 龄 、 
收入 、 学 历 及 号 高 不 够 自信 的 男性 绝 没有 歧视 的 意思 ， 这 里 只 是 做 个 无 
厘 头 的 比方 而 已 。 





上 述 两 个 例子 实际 上 是 一 种 比较 “主观 ”的 决策 树 构 造 方式 ， 把 决策 
树 节 点 的 分 裂 条 件 下 接 决 定 下 来 形成 规则 ， 但 是 下 面 重点 讨论 的 是 决 集 
树 归纳 方式 。 








决策 树 归纳 和 上 述 过 程 看 上 去 有 些 相 反 ， 是 一 个 “ 自 底 同上 ”的 认识 
过 程 。 解 释 如 下 。 


总 结 出 第 一 柠 决 策 树 是 根据 茶 人 长 期 以 来 进行 休 妃 日 行为 决策 的 条 
件 和 结果 从 大 量 样 本 中 辟 结 而 来 的 ， 而 不 是 由 他 目 己 经 过 深思 画 虑 进行 
忆 结 和 口述 ;， 那么 第 二 村 决 集 树 也 不 是 傈 人 上 自己 直接 口述 而 来 的 ， 而 是 
她 在 网 站 上 进行 不 断 地 互动 和 相亲 ， 通 过 计算 机 学 习 归 纳 总 结 出 来 的 。 
这 种 归纳 总 结 的 过 程 比 从 陈述 而 来 的 过 程 可 能 更 为 客观 和 准确 一 一 所 谓 
EU HAT LET. 
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中 认识 世界 ， 目 己 总 结 出 知识 和 规律 。 这 才 是 整个 分 类 算法 体系 要 研究 
的 内 容 。 


10.2.1 样本 收集 


为 了 把 整个 归纳 过 程 讲 述 清楚 ， 还 是 治 用 上 述 相 杀 的 例子 来 做 说 
明 。 可 以 想象 ， 相 杀 网 站 的 运营 人 员 也 没有 可 能 去 跟 她 做 一 个 访谈 来 了 
解 到 她 对 相 杀 决策 过 程 的 描述 ， 怎 么 办 ? 如果 能 够 拿 到 她 相亲 结果 的 肥 
馈 ， 如 跟 谁 见 过 面 等 反馈 ， 就 很 容易 归纳 出 她 的 集 略 了 。 





假设 相亲 信息 表 如 表 10-3 所 示 。 


#210-3 ”相亲 信息 









































网 站 ID p É E (cm) 年 收入 (万 元 ) 有 否 相 亲 
XXXXXXX 25 179 15 N 
XXXXXXX Y 
XXXXXXX Y 
XXXXXXX Y 
SOOO N 
XGGOE XXX N 
NXXXXXX Y 
XXXXXXX N 
REKAKKK Y 
XXXXXXX Y 
XXXXXXX N 
XXXXXXX Y 














假设 拿 到 真实 的 12 个 样本 ， 由 于 网 站 ID 这 种 信息 对 大 龄 女 青 年 们 做 
出 相亲 决策 没有 什么 影响 ， 所 以 直接 忽略 ， 下 面 来 看 后 面 的 数据 项 。 





图 10-4 所 示 的 相亲 决策 树 图 以 年 龄 与 35 岁 相 比 作为 树 根 。 试 想 一 


下 ， 其 他 的 数据 项 能 不 能 做 树 根 ? 为 外 ， 是 不 是 一 定 要 用 大 于 或 小 于 35 
岁 作 为 树 根 分 裂 的 条 件 呢 ， 不 能 是 34 岁 或 者 36 岁 吗 ? 是 不 是 存在 一 种 比 
较 科 学 或 者 客观 的 方法 能 够 找到 这 个 描述 最 简 清 的 方式 呢 ? 这 里 需要 用 
到 一 个 重要 的 概念 ， 即 信息 增益 。 








10.2.2 ”信息 增益 


FEST Ate IS a ZAC EA IB IMS. TER Oa pe SUE LISSE 
PASAT SETTER, A ee HORA BRL EISE Br VU E FEE RR — 
(MeL. MELER R, MRR: 混乱 程度 越 低 ， 燃 越 小 。 





整个 样本 集合 的 糯 如 下 : 


nm 


Info = 一 > p, log, p, 


i-l 
这 又 是 一 个 加 和 结果 ，m 的 数量 就 是 最 后 分 类 决策 ) 的 种 类 ， 这 
个 例子 里 mm 就 是 2 一 一 要 么 见面 要 么 不 见面 。pi 指 的 实际 是 这 个 决 集 项 
产生 的 概率 。 本 例 中 有 两 个 决策 项 ， 一 个 是 N MR) ， 概 率 为 
5/12， 一 个 是 Y CSR) ， 概 率 为 712， 这 个 概率 就 是 从 拿 到 的 完整 的 
THzRiuck AS BINA Y . HAA 





5 5 47 1 l 
-| — log, — + — log, — |=0.98bit 
U ^ 12. 12 "^12; 


xt m bE, RAEE o 





现在 要 做 的 是 挑 出 这 个 “ 树 根 ?， 挑 出 “ 树 根 ”的 原则 是 这 一 个 点 挑 出 
来 一 思 切 下 去 ， 要 尽 可 能 消除 不 确定 性 ， 最 好 一 刀 下 去 就 把 两 个 类 分 清 





楚 ， 如 果 不 行 才 会 选择 在 下 面 的 子 节 点 再 切 一 次 ， 切 的 次 数 越 少 越 好 。 
MRENE, MEA H, RK WHA EELER M} 
RRR, BOA TAA Bese: KRE LAE EUR, A 
PU A, DER BE I . 





所 以 试 试看 完 竟 用 哪个 字段 做 树 根 能 够 使 得 消除 信息 混杂 的 能 力 最 
强 。 





假设 用 菏 一 个 字段 A 来 划分 ， 在 这 种 划分 规则 下 的 炳 为 
Info, =->》 -Info(4,) 
j=l 


AB, Info, 248 BERING, AMALE, erbe SER 
分 为 多 少 组 ，A 字 上段 有 3 个 枚 举 值 ， 表 示 划 分 成 3 组 ， 如 例子 中 “学 历 ” 字 
段 束 有 3 个 枚 举 值 ， 那 么 用 “学 历 ” 字 段 划 分 就 是 v=3 的 情况 。P; 表示 这 种 
分 组 产生 的 概率 ， 也 可 以 认为 是 一 种 权重 ， 即 3 种 学 历 各 自 占 的 比例 ， 
这 里 大 专 是 212， 本 科 是 5012， 硕 士 是 5/12。Info CA; ) 是 在 当前 分 组 状 
态 下 的 期 望 信息 值 。 





有 共 体 来 看 看 用 “学 历 ” 字 段 做 分 割 的 情况 下 ， 精 有 什么 变化 。 


把 上 面 的 公式 展开 : 


Infos= — [ (大 专项 )+( 本 科 项 )+( 磊 士 项 ) ] 
一 [ (Dee X AED) + (yxy X igni x BAD DR] 


Z 2. 1 1 PE i45. 4) SES 441. J 

= T G log, 4+— eni E B log, 3 IE log | s F onst log, 4 

~-|2 x[- $-3)/- -3x0737 -x a. [-$x0322-3x2 2) 
5 12 5 5 


信息 增益 如 下 : 





Gain (4/4 ) -Info-Info » y 
—0.98—0.872 
=0.108 bit 


XUL SP BEA RR a a. WR BS SUBIT ai 
最 大 的 那 种 方式 ， 那 么 还 需要 试 试 其 他 字段 是 否 有 更 大 的 信息 增益 。 





10.2.3 ”连续 型 变量 


试 试用 “年龄 "字段 看 是 否 能 取得 最 大 的 信息 增益 ， 但 是 "年龄 "字段 
比较 麻烦 ， 它 是 一 个 连续 型 的 字段 ， 不 像 上 述 "学 历 "字段 ， 就 是 3 个 枚 
举 值 。 这 种 方法 通常 是 在 这 个 字段 上 找 一 个 最 佳 的 分 裂 点 ， 然 后 一 刀 切 
下 去 ， 让 它 的 信息 增益 最 大 。 





企 一 个 连续 的 字段 上 可 以 尝试 用 如 下 做 法 。 


先 把 这 个 字段 中 的 值 做 一 个 排序 ， 从 小 到 大 。 


年 龄 : 25、25、28、28、29、30、33、34、35、36、40、46。 


这 一 刀 可 以 在 任意 两 个 数字 之 间 切 下 去 ， 切 分 点 就 是 这 两 个 数字 加 
和 再 平均 ， 如 25 和 25 之 间 就 是 25，30 和 33 之 间 就 是 31.5。 要 用 与 用 “学 
历 ” 字 段 分 割 类 似 的 方法 去 做 切割 。 如 果 有 n 个 数字 ， 那 么 就 有 n-1 种 切 
法 ， 究 况 哪 种 好 只 能 一 个 一 个 地 试 。 但 是 也 可 以 选择 中 位 点 ， 然 后 一 个 
一 个 往 两 边 去 试 。 





如 果 猜 测 这 个 字段 值 大 小 确实 对 最 终 决 和 俩 有 比较 大 的 影响 ， 如 确实 
年 龄 是 一 个 很 重要 的 问题 ， 大 于 茶 个 值 就 直接 淘汰 了 ， 小 于 茶 个 值 束 有 
很 大 机 会 ， 那 么 从 中 位 点 往 两 边 试 ， 第 一 次 第 v 个 点 〈 中 位 点 ) ， 第 二 


次 v-1 个 点 ， 第 三 次 v+1 个 点 ， 第 四 次 v-2 个 点 ， 第 五 次 v+2 个 点 ， 以 此 类 
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Tamek Zc PA m-1 Allm+ La A fe REN IY, MAARE S 

这 个 点 。 但 是 这 个 前 提 条 件 太 强 了 ， 要 求 确 实 存在 一 个 分 水 岭 式 的 分 割 
Fao 
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最 小 的 点 吧 。 


那 我 们 下 面 给 出 两 段 Python 代 码 来 说 明 枚 举 类 型 的 字段 的 期 望 信息 
和 连续 类 型 的 字段 的 期 望 信息 计算 方法 。 


“学 历 "字段 分 割 ， 代 码 如 下 : 





# 学 历 分 类 中 大 专 、 本 科 、 硕 士 占 比 





education = ( 


2.0 / 12, 


5.0 / 12. 


5.0 / 12 


# 大 专 分 类 中 相亲 占 比 





junior college = < 


1.0 / 2, 


1.0 / 2) 





# 本 科 分 类 中 相亲 占 比 








undergraduate = 
3.0 / 5, 

2.0 / 5 

# 硕 士 分 类 中 相亲 占 比 
master = < 

4.0 / 5, 

1.0 / 5 
# 学 历 各 分 类 中 相亲 占 比 
date per = « 


junior. college 


undergraduate, 


master» 


FP HSE" FB A 00] F BERE 


def info date < 


p: 


info - 0 
for v in p: 


info += v * log« 


2) 


return info 
THE JH A FRR TF POS 


def infoAo.: 


info - 0 
for i in range 


len: 


education) >): 


info += -education[i] * info_date < 


date_per[i]> 


return info 
print infoA © 


# 结 果 为 


0.872 032 787 226 











age - [25 


25, 


28. 


28. 


29, 


30, 


33, 


34, 


35, 


36, 


40, 


# 这 里 从 年 龄 








28、 


29 中 间 切 开 





# 左 、 右 分 类 中 的 数量 占 总 数 的 百分比 





split per = « 


4.0 / 12. 


8.0 / 12 





# 左 边 分 类 中 相亲 占 比 





date left = « 


1.0 / 2 


1.0 / 2) 





# 右 边 分 类 中 相亲 占 比 





date right = « 


5.0/8 


3.0 / 8) 


# 左 、 右 各 分 类 中 相亲 占 比 





date per = « 


date left. 


date right» 
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def info date: 


p: 
info - 0 
for v in p: 
info += v * log« 
V, 
2) 


return info 
HE. AAAI RUIT BA 


def infoAo.: 


info = 0 


for i in range ( 


len < 


split per»».: 


info += -split per[i] * info date« 


date per[i] 


return info 
print infoA © 


# 结 果 是 


0.969 622 668 617 
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乎 是 0.97， 很 接近 1 了 ， 这 说 明 这 一 思 切 得 很 没有 效率 ， 还 要 寻找 其 他 
切 分 位 置 。 修 改 以 下 代码 ， 束 可 以 得 到 其 他 方案 的 燃 值 。 











# 左 、 右 分 类 中 的 数量 占 总 数 的 百分比 





split per = « 


4.0 / 12. 


8.0 / 12 


# 左 边 分 类 中 相亲 占 比 





date left = « 


1.0 / 2, 


1.0 / 2) 


# 右 边 分 类 中 相亲 占 比 





date right = « 


5.0/8 


3.0/ 8) 





最 后 归纳 总 结 一 下 构造 整 棵 树 时 的 思路 ， 应 该 是 遵循 下 面 这 样 的 方 
x 
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v (不 管 是 连续 类 型 还 是 枚 举 类 型 ) 。 
TRE. WERT NUI BAHIA) AV 


第 三 步 ， 把 字段 A 从 所 有 竺 选 的 字段 列表 中 拿 走 ， 再 从 第 一 步 开 始 
找 。 注 意 这 时 相当 于 决 集 已 经 走 了 一 步 了 ， 如 果 在 根 节 点 上 已 经 分 裂 成 
两 个 分 文 ， 那 么 每 一 个 分 文 各 目 又 形成 一 个 完整 的 决策 树 的 选择 过 程 ， 
注意 不 同 点 。 不 同 的 是 : 可 选 的 字段 不 一 样 了 ， 因 为 A 字 段 被 去 掉 了 ; 
此 外 ， 在 这 个 分 文 上 的 样本 也 比 原 来 少 了 ， 因 为 两 个 分 支 分 割 了 整个 样 
本 ， 使 得 一 个 部 分 分 文 只 拥有 样本 的 一 部 分 。 








这 个 过 程 只 是 看 上 去 比较 哆 嗪 而 已 ， 用 程序 套 算 时 还 是 比较 快 的 。 
缺点 是 这 个 归纳 出 来 的 树 可 能 会 非常 复杂 ， 分 文 和 层次 极 多 ， 这 样 在 可 


视 化 上 也 有 问题 ， 在 实际 用 新 样本 来 做 分 类 时 也 会 感 党 操作 麻烦 。 





还 可 以 用 "“ 减 梳 法 ?进行 树 的 修 筋 ， 有 “前 减 核 ? 和 “后 勇 术 ?两 种 方 
法 。“ 前 一 校 * 就 是 提前 终止 树 的 构造 ， 如 只 用 了 2 个 字段 ， 两 层 树 就 已 
经 构造 完整 个 树 了 ， 保 持 了 树 的 精简 性 。“ 后 枉 枝 * 束 是 等 树 完全 构造 
完 ， 如 建 模 一 共 使 用 7 个 字段 ， 全 都 用 上 ， 这 样 就 形成 了 一 个 7 层 的 树 ， 
如 果 一 个 分 文 下 分 类 已 经 比较 “纯粹 > 了 ， 融 没 必要 再 通过 其 他 条 件 分 文 
来 进行 细 化 ， 那 么 整个 校 可 以 直接 减 挥 变 成 一 个 叶 。 





剪 枝 这 个 动作 其 实 是 在 分 类 精度 上 和 算法 繁琐 的 程度 上 做 了 一 个 妥 
协 ， 这 种 思路 几乎 贯穿 所 有 的 分 类 算法 的 始终 。 在 第 8 章 中 介绍 过 过 拟 
和 人 欠 拟 的 问题 ， 过 拟 的 诱因 之 一 是 更 重视 精度 的 思路 ， 欠 拟 的 诱因 之 一 
是 更 重视 简洁 度 的 思路 。 因 此 ， 不 能 武断 地 说 过 拟 不 好 或 者 从 拟 不 好 ， 
而 是 要 在 方案 的 收益 和 成 本 之 间 做 一 个 权衡 。 这 一 点 在 具体 方案 落地 的 
时 候 很 重要 。 





10.3 ”随机 森林 


随机 森林 算法 是 一 种 并 行 性 比较 好 的 算法 规则 ， 一 再 强调 的 是 ， 在 
数据 挖掘 中 的 很 多 算法 实际 是 一 种 问题 处 理 方式 或 者 原则 ， 而 不 是 针对 
茶 一 个 具体 的 问题 所 书写 的 代码 。 这 本 和 映 也 是 一 个 哲学 上 的 矛盾 ， 针 对 
性 越 强 ， 深 度 越 大 ， 适 应 度 越 罕 ， 而 反 过 来 ， 针 对 性 约 弱 ， 深 上 度 越 小 ， 
适应 度 就 越 宽 。 在 学 习 数 据 控 掘 诸多 算法 时 应 该 还 是 更 多 注重 这 些 适 应 
度 较 宽 的 算法 思路 。 




















看 到 “和 森林 ”这 个 词 ， 很 容易 联想 到 前 一 节 介 绍 的 决策 树 ， 很 多 很 多 
树 就 可 以 构成 森林。 确实 ， 和 前 面 的 决策 树 归 纳 的 过 程 类 似 ， 随 机 森林 
征 一 个 构造 决策 树 的 过 程 ， 只 是 它 不 是 要 构造 一 柠 树 ， 而 是 构造 许多 桔 
树 。 








在 决策 树 的 构造 中 会 遇 到 过 拟 和 欠 拟 的 问题 ， 在 随机 森林 算法 中 ， 
通 滑 在 一 柠 树 上 是 不 会 退 求 及 其 精确 的 拟 合 的 ， 而 相反 ， 和 希望 的 是 决策 
树 的 简洁 和 计算 的 快速 


步骤 和 原则 如 下 。 


(1) 随机 挑选 一 个 字段 构造 树 的 第 一 层 。 


(2) 随机 挑选 一 个 字段 构造 树 的 第 二 层 。 


(3) 随机 挑选 一 个 字段 构造 树 的 第 n 层 。 


(4) 在 本 柠 树 建造 完毕 后 ， 还 需要 照 这 种 方式 建造 目 株 决策 树 。 


补充 原则 如 下 。 


C1) 树 的 层级 通常 比较 浅 。 


(2) 每 棵 树 的 分 类 都 不 能 保证 分 类 精度 很 高 。 





(3) 一 个 样本 进行 分 类 时 同时 对 这 m 标 决策 树 做 分 类 概率 判断 。 





人 们 会 为 一 个 训练 集 构造 右 干 株 决 策 树 ， 通 党 可 能 是 几 十 甚至 上 百 
柠 ， 有 具体 会 根据 样本 属性 的 数量 和 杂乱 程度 来 决定 。 当 有 新 样本 需要 进 
行 分 类 时 ， 同 时 把 这 个 样本 给 这 几 柠 树 ， 然 后 用 类 似 民 主 投票 表决 的 方 
式 来 决定 新 样本 应 该 归属 于 哪 关 ， 哪 一 类 “得 票 多 ”就 归 为 哪 一 类 。 








下 面 把 上 述 例子 用 随机 森林 的 方式 来 实现 ， 代 码 如 下 : 


from sklearn.ensemble import RandomForestClassifier 
# 学 历 


#' 年 龄 





"身高 


“年 收入 





15; 


0]. 


[33. 


190, 


19. 


0]. 


[28. 


180, 


18. 


2], 


[25. 


178, 


18. 


2], 


[46, 


100, 


100, 


2], 


[40, 


170, 


170, 


1], 


[34, 


174, 


20, 


2], 


[36, 


181, 


55, 


1]. 


[35, 


170, 


25, 


2], 


[30, 


180, 


35, 


1], 


[28, 


174, 


30, 


1], 


[29, 


176, 


36, 
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1] 
# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 





hp 进行 训练 


clf = RandomForestClassifier () 


Fit ( 


y) 


PERGIT TEE A Je HORS 





p = [[28. 


2]] 
clf.predict < 


p 


# 输 出 结果 是 


[1] 是 





这 里 验证 用 的 是 训练 样本 中 的 第 3 个 [28，180，18，2]， 而 第 3 个 样 
本 也 确实 是 相 杀 的 对 象 ， 验 证 成 功 。 同 样 可 以 用 更 多 的 样本 来 进行 训 
练 ， 这 样 的 预测 结果 会 更 加 准确 。 








10.4 ” 隐 杞 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 最 初 由 L.E.Baum 
发 表 在 20 世 纪 70 年 代 一 系列 的 统计 学 论文 中 ， 随 后 在 语言 识别 、 上 自然 语 
言 处 理 以 及 生物 信息 等 领域 体现 了 很 大 的 价值 。 





还 有 一 个 概念 叫做 “马尔 可 夫 链 ”( 也 有 写成 马尔 科 夫 链 或 者 马尔 科 
夫 模 型 的 ) 。 这 两 者 有 什么 关系 呢 ? 马 尔 可 夫 链 是 一 个 数学 概念 ， 因 为 
它 由 俄罗斯 物理 学 家 兼 数学 家 安 德 烈 :马尔 可 夫 〈A.A.Markov) 提出 而 
得 名 。 马 尔 可 夫 链 的 核心 是 ， 在 给 定 当前 知识 或 信息 的 情况 下 ， 观 察 对 
象 过 去 的 历史 状态 对 于 预测 将 来 是 无 关 的 。 也 可 以 说 ， 在 观察 一 个 系统 
变化 的 时 候 ， 它 下 一 个 状态 (第 n+1 个 状态 ) 如 何 的 概率 只 需要 观察 和 
统计 当前 状态 (第 n 个 状态 ) 即 可 以 正确 得 出 。 另 外 ， 在 一 些 资 料 上 会 
看 到 贝 叶 斯 信念 网 络 的 分 类 模型 概念 。 隐 马尔 可 夫 链 和 贝 叶 斯 信念 网 络 
的 模型 思维 方式 有 些 接近 ， 区 别 在 于 ， 隐 马尔 可 夫 链 的 模型 更 为 简化 ， 
或 者 可 以 认为 隐 马 尔 可 夫 链 就 是 贝 叶 斯 信念 网 络 的 一 种 特例 。 而 且 隐 马 
尔 可 夫 链 是 一 个 双重 的 随机 过 程 ， 不 仪 状态 转移 之 间 是 一 个 随机 事件 ， 
状态 和 输出 之 间 也 是 一 个 随机 过 程 ， 如 图 10-5 所 示 。 
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图 10-5” 隐 马尔 可 夫 链 示意 图 


在 一 个 完整 的 观察 过 程 中 有 一 些 状态 的 转换 ， 即 图 10-5 中 用 虚线 图 
表示 的 XI1 到 XT 。 在 观察 中 X1 到 Xr 的 状态 存在 一 个 客观 的 转化 规律 ， 
但 是 没 办 法 直接 观测 到 ， 观 测 到 的 是 每 个 X 状 态 下 的 输出 O， 即 01 到 OT 
。 需 要 通过 O1 到 Or 这 些 输出 值 来 进行 模型 建立 和 计算 状态 转移 的 概 
FB 
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BPE BL RIM FADS) ，6 个 面 ， 每 个 面 
(1，2，3，4，5，6) 出 现 的 概率 是 1/6。 


BOAT EPR RISER FADS) , ES G1, 2, 
3, 4) 出 现 的 概率 是 1/4。 


FxPRLPAS TA RIANT ADS) , BNA (1, 2, 3, 4, 
5, 6, 7, 8) 出 现 的 概率 是 1/8。 


当然 用 其 他 点 数 的 人 般 子 原 理 是 一 样 的 。3 种 般 子 和 掷 般 子 可 能 产生 


的 结果 如 图 10-6 所 示 。 


D6 D4 D8 


图 10-6 3RHBCT NIHBCT RI BET AE BS £i TR. 





ZG BE DX dE— cr. PUR PES, HR TAA 
FERIA. AJA3TBUCF HEBES PERBIRE— BOT BUREAU 1/3. PA 
PRY, EU-A, 1. 2. 3. 4. 5. 6. 7. 8'B—^ P. A 
重复 上 述 过 程 ， 会 得 到 一 串 数字 ， 每 个 数字 都 是 1、2、3、4、5、6、 
7 


例如 ， 可 能 得 到 这 么 一 串 数 字 ONHETu10170 : 1、6、3、5、2、 





2、4， 这 串 数 字 叫 做 可 见 状态 链 ， 也 就 是 记录 的 这 组 数字 ， 
也 是 前 面 介绍 的 0,。 但 是 在 隐 马 尔 可 夫 模 型 中 ， 不 仅仅 有 这 么 一 串 可 
见 状态 链 ， 还 有 一 串 隐 含 状态 链 。 在 这 个 例子 里 ， 这 串 隐 含 状态 链 就 是 
选 出 的 山子 的 序列 。 例 如 ， 隐 含 状 态 链 有 可 能 是 D6、D8、D8、D6、 
D4、D8、D6、D6、D4、D8， 如 图 10-7 所 示 。 如 果 继 续 选 取 和 投掷 还 能 
得 到 这 个 状态 链 上 更 多 的 节点 。 一 般 来 说 ，HMM 中 的 马尔 可 夫 链 其 实 
eta he a RAS HE, VASE ERA RAS CATR) 之 间 存 在 转换 概 
率 (Transition Probability) ， 如 图 10-8 所 示 。 
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es S| {oi 说 朋 : 


一 个 隐 含 状态 —» 从 一 个 隐 含 状态 到 下 一 个 隐 含 状态 的 转换 


© 一 个 可 见 状态 y 从 一 个 隐 含 状态 到 一 个 可 见 状态 的 输出 


图 10-7 隐 马 尔 可 夫 模 型 示意 图 


在 这 个 例子 中 ，D6 的 下 一 个 状态 是 D4、D6、D8 的 概率 都 是 1/3。 
D4、D8 的 下 一 个 状态 是 D4、D6、D8 的 转换 概率 也 都 一 样 是 113， 虽 然 
在 示例 中 没有 画 出 所 有 的 情况 ， 但 是 从 古典 概 型 的 角度 来 分 析 ， 应 该 是 

这 样 的 ， 而 实际 上 也 可 以 从 大 量 的 撕 般 子 实验 中 得 到 这 样 的 转换 概率 的 
统计 结果 。 这 样 设 定 是 为 了 最 开始 容易 说 清楚 ， 其 实 是 可 以 随意 设 定 转 
换 概率 的 。 例 如 ， 可 以 这 样 定义 ，D6 后 面 不 能 接 D4，D6 后 面 是 D6 的 概 





70.9, DBM REO.. TALKER TNES, TEAL, 
其 中 D4 有 2 个 ，D6 有 9 个 ，D8 有 1 个 ， 等 等 。 这 样 就 是 一 个 新 的 HMML， 
因为 转换 概率 肯定 是 与 当前 的 例子 不 同 的 。 而 同样 的 ， 尽 管 可 见 状 态 之 
间 没 有 直接 的 转换 概率 ， 但 是 隐 含 状态 和 可 见 状 态 之 间 有 一 个 概率 叫做 
输出 概率 (Emission Probability) 。 


AN 
Cm 


410-8 ” 隐 含 状态 转换 关系 示意 图 








PLA PIR, NERT (D6) 产生 1 的 输出 概率 是 /6。 产 生 2、3、 
4、5、6 的 概率 也 都 是 6。 同样 可 以 对 输出 概率 进行 其 他 定义 。 例 如 ， 
有 一 个 被 赌场 动 过 手脚 的 六 面 角 子 ， 撕 出 来 是 1 的 概率 更 大 ， 是 1/2， 撕 
出 来 是 2、3、4、5、6 的 概率 是 1/10。 


其 实 对 于 HMM 来 说 ， 如 果 提 前 知道 所 有 隐 含 状态 之 间 的 转换 概率 
和 所 有 隐 含 状态 到 所 有 可 见 状 态 之 间 的 输出 概率 ， 进 行 模拟 是 相当 容易 
的 。 但 是 应 用 HMM 模 型 时 ， 往 往 缺 失 一 部 分 信息 ， 有 时 候 知 道 贷 子 有 
几 种 ， 每 种 人 般 子 是 什么 ， 但 是 不 知道 掷 出 来 的 货 子 序列 ， 有 时 候 只 是 看 








ALT RLU, RR MANE. WRN P i 
这 些 缺 失 的 信息 ， 就 成 了 一 个 很 重要 的 问题 。 这 些 算法 将 会 在 后 续 章节 
详细 介绍 





和 HMM 模 型 相关 的 算法 主要 分 为 3 类 ， 分 别 解决 3 种 问题 。 


问题 1: AUER ALPE CERTUS GRO . BERR EA COE 
换 概率 ) WERTER ARSE) AEREA R 
AN AB ce AB PRR ARARE) 


这 个 问题 在 语音 识别 领域 叫做 解码 问题 。 这 个 问题 其 实 有 两 种 解 
法 ， 会 给 出 两 个 不 同 的 答案 。 每 个 答案 都 正确 ， 只 是 这 些 答案 的 意义 不 
一 样 。 第 一 种 解法 求 最 大 似 然 状 态 路 径 ， 通 众 地 次 ， 束 是 求 一 串 人 般 子 序 
列 ， 这 串 骨 子 序列 产生 观测 结果 的 概率 最 大 。 第 二 种 解法 不 是 求 一 
TFI, TER BET HH I RCL od al ce PLE ZR 


fn, Bala, A OAKES FED ME 20.5, D6 
的 概率 是 0.3，D8 的 概率 是 0.2。 


问题 2: ABÉTCIHJUR CERA BC) BERR EA COE 
换 概率 ) PRET ZR CAT TRASHED), AREAS eh 2 
果 的 概率 。 








这 个 问题 看 似 意义 不 大 ， 因 为 掷 出 来 的 结果 很 多 时 候 都 对 应 了 一 


比较 大 的 概率 。 这 个 问题 的 目的 其 实 是 检测 观察 到 的 结果 和 已 知 的 模型 
是 否 吻 合 。 如 果 很 多 次 结果 部 对 应 了 比较 小 的 概率 ， 那 么 就 说 明 已 知 的 
模型 很 有 可 能 是 错 的 ， 有 人 偷偷 把 般 子 换 了 。 





问题 3: ALERT ALA Cha kA Beet), ANREP ETT 
4 CERK) , XU SIR TRF ER OURS) , TEE 
HAPS ETA CRN) 。 这 个 问题 很 重要 ， 因 为 这 是 最 常见 的 
情况 。 很 多 时 候 只 有 可 见 结果 ， 不 知道 HMM 模 型 中 的 参数 ， 需 要 从 可 
见 结果 估计 出 这 些 参数 ， 这 是 建 模 的 一 个 必要 步 又 。 





[1] 该 例子 来 源 于 知 乎 ， 作 者 : Yang Eninala， 链 接 : 
http://www.zhihu.com/question/20962240/answer/33438846， 有 部 分 删 
p. 


10.4.1 维特 比 算 法 


接着 上 述 例子 说 问题 1， 解 最 大 似 然 路 径 问 题 。 
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再 从 中 把 对 应 最 大 概率 的 序列 挑 出 来 。 如 果 马 尔 可 夫 链 不 长 ， 这 种 方法 
是 可 行 的 。 如 果 马 尔 可 夫 链 长 ， 穷 举 的 数量 太 大 ， 就 很 难 完成 了 。 另 外 
一 种 很 有 名 的 算法 叫做 维特 比 算 法 (Viterbi algorithm) 。 要 理解 这 个 算 
法 ， 先 看 几 个 简单 的 例子 。 
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图 10-9 Hih— a 
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结果 分 别 为 1!、6。 这 时 问题 变 得 复杂 起 来 ， 要 计算 3 个 值 ， 分 别 是 
第 二 个 般 子 是 D6、D4、D8 的 最 大 概率 。 显 然 ， 要 取 到 最 大 概率 ， 第 一 
个 遇 子 必须 为 D4。 这 时 ， 第 二 个 般 子 取 到 D6 的 最 大 概率 如 下 : 


P2(D6) = P(D4)* P(1| D4) * P(D6|D4)* P(6| D6) 
] 
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3 43 6 
Eti EU SEAS IE SB AN TARDAR (1/3) 乘 以 在 选 
SIDABS TS PHORM (1/4) , P CD6[DAD ETRE — CT 36 8 
D4 的 情况 下 第 二 个 般 子 选 到 D6 的 概率 (1/3) . Ba Et T 8x 


子 选 到 D6 的 情况 下 掷 出 6 点 的 概率 《1l6) 。 








同样 的 ， 可 以 计算 第 二 个 般 子 是 D4 或 D8 时 的 最 大 概率 。 发 现 ， 第 
二 个 散 子 取 到 D6 的 概率 最 大 。 而 使 这 个 概率 最 大 时 ， 第 一 个 散 子 为 
D4。 所 以 最 大 概率 骨 子 序列 就 是 D4、D6。 继 续 拓展 ， 措 3 次 骨 子 ， 如 图 


10-11 所 示 。 
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图 10-11 


同样 ， 计 算 第 三 个 仍 子 分 别 是 D6、D4、D8 的 最 大 概率 。 再 次 发 
现 ， 要 取 到 最 大 概率 ， 第 二 个 般 子 必须 为 D6。 这 时 ， 第 三 个 明 子 取 到 
D4 的 最 大 概率 如 下 : 


P3(D4) = P2(D6)* P(D4| D6)* P(3| D4) 
+ sll) 
3 
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可 以 ， 以 此 类 推 。 











可 以 发 现 ， 要 求 最 大 概率 人 般 子 序列 时 要 做 下 面 几 件 事情 。 


首先 ， 不 管 序列 多 长 ， 要 从 序列 长 度 为 1 算 起 ， 算 序列 长 度 为 1 时 取 
到 每 个 人 般 子 的 最 大 概率 。 然 后 ， 逐 渐 增 加 长 度 ， 每 增加 一 次 长 度 ， 重 新 
算 一 亿 在 这 个 长 度 下 最 后 一 个 位 置 取 到 每 个 散 子 的 最 大 概率 。 因 为 上 一 
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中 展示 出 的 完整 维特 比 算法 。 











维特 比 算法 的 提出 者 叫 安德鲁 .维特 比 ， 美 籍 犹 太 人 ， 高 通 首席 科 
学 家 ， 同 时 也 是 高 通 公司 创始 人 之 一 。 维 特 比 算法 的 目的 也 比较 单纯 ， 
即 找 出 可 能 性 最 大 的 隐藏 序列 。 





这 种 算法 研究 是 一 种 链 的 可 能 性 问题 。 现 在 应 用 最 广 的 领域 是 
CDMA 通 信 以 及 打字 提示 功能 。 


通信 系统 是 一 个 非常 复杂 的 系统 ， 不 管 是 人 们 用 的 手机 的 通信 ， 还 
征 家 里 无 线路 由 器 的 WiFi 通 信 ， 还 是 光纤 里 的 光波 通信 ， 涉 及 一 系列 的 
问题 。 例 如 ， 在 进行 语音 通话 时 要 把 声音 信号 的 模拟 信号 进行 抽样 ， 再 
用 傅 里 叶 变 换 变 成 余弦 波 组 成 的 频 域 信号 ， 再 把 频 域 信号 进行 数字 化 传 
和 输 ， 再 用 传 里 叶 逆 变 换 变 回 时 域 信 号 ， 再 由 模拟 放大 电路 变 成 声音 信和 号 
放出 来 。 而 在 一 个 小 区 域 里 大 量 的 人 都 用 的 是 一 个 手机 基站 ， 会 不 会 出 
现 把 基站 挤 满 了 没 办 法 打 电 话 的 情况 呢 ? 








相信 大 家 都 有 体会 ， 在 没有 微 信 的 时 候 ， 手 机 基站 最 忙 的 时 候 就 是 
除夕 钟 声 融 啊 的 前 后 了 。 打 电话 打 不 出 去 ， 别 人 也 打 不 进来 ， 短 信和 发 起 
来 也 是 很 困难 ， 因 为 市 宽 被 接 通 的 这 些 电话 占 满 了 。 每 一 台 手 机 和 基站 


ZBI poe SE Hae HU. TAT NR. A EPL US fiar CER 
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入 的 手机 用 了 ， 电 话 自 然 打 不 出 去 也 打 不 进来 。 对 于 基站 来 说 ， 通 信 频 

肯定 是 有 这 样 的 局 限 性 的 ， 通 信 要 保证 每 个 接 入 的 手机 都 要 正常 通话 
一 般 有 以 下 两 种 办 法 。 














(1) 每 个 人 用 不 同 的 频段 。 每 个 手机 各 用 各 的 频率 ， 当 然 就 不 会 
干扰 了 。 





(2) 大 家 轮 注 “ 说 话 ?”。 把 时 间 打 碎 ， 如 一 秒 钟 分 成 几 十 个 小 段 ， 
每 个 手机 被 分 配 只 在 这 个 小 段 和 基站 用 某 个 频率 通信 ， 下 次 通信 就 得 到 
下 一 秒 去 。 这 样 所 有 的 手机 虽然 用 的 是 同一 个 频率 ， 但 是 大 家 “说 话 ” 都 
很 紧 竣 ，1 秒 钟 收集 到 的 信息 压缩 在 几 十 分 之 一 秒 发 过 去 。 时 间 上 错 
开 ， 也 不 会 有 问题 。 








当然 ， 还 有 一 种 方法 就 是 两 种 方案 混搭 ， 即 分 配 不 同 的 频段 ， 又 分 
配 不 同 的 时 间 。 这 样 一 个 基站 惑 能 容纳 几 百 个 人 同时 使 用 了 。 


还 有 一 种 看 上 去 非常 高 级 的 协议 ， 叫 做 CDMA 协 议 (Code Division 
Multiple Access) ， 中 文 译作 码 分 多 址 协议 ， 国 内 目前 用 的 3G 或 者 4G 都 
是 CDMA 协 议 族 里 的 通信 协议 。 


怎么 理解 这 种 协议 呢 ? 先 想 象 一 下 ， 很 多 人 聚 在 一 起 说 话 时 有 什么 
现象 ? 即 大 家 都 在 用 3000~4000Hz 的 频率 一 一 常人 耳 休 能 识别 的 语音 频 


率 来 进行 对 话 。 大 家 都 近 距 离 小 声 说话 ， 基 本 上 还 没 问 题 。 这 属于 多 个 
点 对 点 的 对 话 ， 其 他 人 之 间 对 话 的 声音 传 过 来 束 非 常 小 了 ， 基 本 不 会 干 
扰 到 和 谈话 对 象 之 间 的 会 话 一 一 从 前 面 提 到 过 的 香农 公式 来 说 这 属于 信 
噪 比比 较 大 的 时 候 。 如 果 大 家 说 话 时 声音 都 比较 大 ， 那 就 显得 非常 哺 

杂 ， 如 果 噪 声 压 过 了 正 间 交谈 的 声音 再 想 要 跟 谈 话 对 象 说 清楚 就 需要 离 


近 一 些 ， 声 音 大 一 些 ， 这 就 是 加 大 信号 功率 ， 还 是 加 大 信 噪 比 的 方 
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CDMA 是 一 种 与 这 种 处 理 思 路 不 同 的 方式 ， 它 相当 于 在 整个 房间 里 
强迫 每 一 对 谈话 者 都 用 一 种 与 其 他 谈话 的 人 不 一 样 的 语言 。 如 甲乙 两 个 
人 用 英语 ， 丙 丁 两 个 人 用 中 文 ， 戊 己 两 个 人 用 圩 国语 ， 等 等 。 最 后 整个 
房间 里 虽然 听 起 来 还 是 会 比较 嘲 杂 ， 但 是 每 个 对 话 者 经 历 的 是 一 种 什么 
现象 呢 ?” 如 甲 会 在 乱 喻 喻 的 背景 噪音 里 ， 听 到 有 一 个 乙 在 讲 英 语 ， 乙 也 
古 同 样 的 感觉 一 一 他 会 听 到 在 嘲 杂 的 噪声 里 有 一 个 甲 在 讲 英 语 。 其 他 每 
一 组 对 话 的 对 象 都 会 有 类 似 的 感觉 ， 即 能 昕 到 杂乱 的 背景 噪声 里 有 一 个 
人 在 讲 自 己 能 听 懂 的 语言 一 一 只 要 这 种 噪声 不 要 大 到 完全 听 不 到 谈话 对 
象 在 说 什么 即 可 。 每 对 人 物 对 话 的 过 程 却 是 听 到 了 很 多 的 声 首 ， 但 是 根 
据 上 下 文 关 系 是 能 够 从 众多 的 声音 中 泪 出 那些 和 目 己 语言 一 致 的 声音 ， 
甚至 在 语言 种 类 一 致 的 情况 下 能 够 滤 出 和 目 己 对 话 内 容 一 致 的 声音 。 这 
基本 就 是 CDMA 技 术 最 为 通俗 的 解释 了 ， 整 个 方案 束 是 基站 ， 不 同 的 手 
机 就 是 里 面 每 个 人 ， 唯 一 不 同 的 一 点 是 ， 基 站 本 身 会 说 N 种 语言 ， 它 每 
次 和 一 人 台 手 机 开局 一 个 会 话 都 会 指定 让 这 次 会 话 使 用 某 种 语言 而 且 和 其 
































他 手机 不 同 ， 虽 然 频 段 和 时 间 上 不 做 区 分 但 是 手机 和 基站 的 通信 在 各 目 
的 “语言 "下 并 行 不 怪 。 





人 类 为 什么 会 具有 这 样 一 种 能 力 ， 其 实 是 根据 这 些 语 首 各 自 具 备 一 
定 的 特性 和 上 下 文 关 系 ， 所 以 人 们 轻易 能 够 从 噪声 中 提取 到 能 理解 的 信 
恩 ， 而 忽略 那些 认为 不 是 信息 的 内 容 。 





维特 比 算法 整体 的 思路 就 是 在 寻找 收 到 的 上 一 段 信息 和 它 后 面 跟随 
的 下 一 段 信息 的 转移 概率 问题 一 一 在 这 段 信 息 后 最 可 能 出 现 的 是 哪些 前 
置 内 容 。 


再 来 看 一 个 和 生活 更 贴近 的 例子 一 打字 软件 猜测 输入 内 容 对 应 文 
字 ， 如 图 10-12 所 示 。 
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图 10-12 “打字 软件 猜测 输入 内 容 对 应 文字 

在 Windows 中 能 够 使 用 的 输入 法 有 很 多 种 ， 有 全 拼 ， 即 要 把 拼音 输 
入 完整 ， 有 双 拼 ， 即 一 种 缩 拼 ， 用 一 个 字符 代表 若干 个 字符 ， 有 五 笔 字 
型 ， 即 用 一 个 字符 代表 一 个 偏旁 ， 等 等 ， 但 是 猜测 输入 文字 时 ， 原 理 差 














不 多 。 以 全 拼 为 例 ， 在 使 用 输入 法 时 ， 输 入 的 是 英文 字母 。 在 这 个 应 用 
中 ， 陷 藏 的 序列 是 真实 要 和 输入 的 中 文字 符 和 词汇 ， 显 示 的 部 分 是 输入 的 


英文 字符 。 








在 输入 jin 时 ， 输 入 法 软件 会 猪 测 想 要 输入 “ 近 ”、“ 厂 ”“ 今 ”等 。 而 
这 种 排序 不 是 瞎 猜 的 ， 通 常 是 根据 统计 而 来 。 也 就 是 
说 EE”、“ 斤 ”、“ 今 ?这样 的 顺序 一 般 是 根据 使 用 人 的 输入 习惯 形成 的 
一 一 在 平时 打字 聊天 的 过 程 中 “ 近 ” 出 现在 词汇 或 句子 (如 果 输 入 法 知道 
这 个 是 句子 开始 ) 输入 开始 的 概率 大 于 “ 厂 ”， 而 “ 厂 ” 大 于 “ 今 *。 在 使 用 
和 输入 法 时 也 能 感觉 到 ， 一 个 字 如 果 和 被 输入 一 次 ， 下 一 次 再 得 入 的 时 候 排 
名 可 能 就 比 原来 靠 前 很 多 ， 尤 其 是 那些 比较 冷 俱 的 字 排 名 变化 尤其 明 
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但 是 又 输入 了 tian 时 就 不 一 样 了 。 “今天 ”作为 一 个 词汇 ， 比 其 他 任 
何 一 个 被 拼 作 jintian 的 词汇 都 使 用 得 更 为 高 频 。 也 可 以 理解 为 ， 当 输入 
tian 时 ， 由 jin( 今 ) 到 tian CAO 这 条 路 径 的 概率 是 最 高 的 ， 这 是 把 “ 今 


天 ”这 个 词汇 放 在 第 一 个 的 原因 。 


后 面 输入 了 几 个 其 他 的 完整 词汇 : “我 们 ”“ 应 该 “做 些 ”“ 什 
么 ”， 输 入 法 也 会 继续 对 这 些 词汇 在 句子 中 的 路 径 概 率 进 行 计算 ， 每 次 
输入 都 会 猪 测 一 次 到 目前 的 输入 状态 为 止 最 有 可 能 的 那 条 路 径 ， 那 么 看 
到 的 这 个 第 一 顺 位 的 词汇 ， 准 确 说 是 一 个 句子 一 一 “今天 我 们 应 该 做 些 
什么 ? 融 是 猜测 到 的 最 优 的 结果 ， 它 比 其 他 任何 一 种 路 径 产 生 的 概率 都 
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上 述 内 容 是 一 个 在 没有 看 该 输入 的 源 代码 的 情况 下 做 的 一 个 猜测 ， 
只 是 说 这 样 做 是 可 以 的 ， 有 具体 操作 起 来 还 是 会 比较 复杂 ， 还 有 很 多 其 他 
的 因素 应 该 考虑 进去 。 如 这 个 马尔 可 夫 模 型 的 训练 〈 拼 首 串 的 输入 与 最 
终 产生 的 汉字 串 的 输出 ) 是 应 该 来 源 于 本 地 的 输入 者 的 习惯 呢 ， 还 是 应 
该 来 源 于 更 加 有 代表 性 的 互联 网 呢 ， 还 是 两 者 结合 ， 如 果 结 合 又 是 怎么 
一 种 策略 来 调解 其 中 矛盾 的 部 分 呢 ?” 这 些 都 是 值得 探讨 的 问题 。 








下 面 模拟 输入 法 的 猜测 方法 给 出 一 个 算法 示例 ， 先 给 出 各 级 转移 矩 
阵 ， 如 表 10-4~ 表 10-7 所 示 。 


表 10-4 ”jin 概率 和 矩阵 


概率 
0.3 

0.2 

0.1 
0.06 





0.03 


表 10-5 jin-tianfZ #658 BE 


yt 0.001 0.001 0.001 


4210-6 ”wo 概率 矩阵 








我 0.400 
54 0.150 
LES 0.090 
握 0.050 
fi) 0.030 


4210-7 ”wo-men 转 移 和 矩阵 


扣 
我 0.001 
T 0.001 
ne 0.001 
握 0.001 
fi) 0.001 








简单 做 一 下 说 明 ， 输 出 一 个 完整 拼音 后 ， 用 户 就 会 按 空 格 或 者 数字 


把 输入 备 选 框 中 的 汉字 输出 ， 当 单字 词 输出 时 就 会 由 统计 产生 “jin 输 入 
概率 矩阵 "和 “wo 概率 矩阵 这样 的 统计 结果 ， 这 个 计算 比较 简单 ， 计 算 
次 数 即 可 。 下 次 再 度 输 入 单字 词 拼音 就 会 根据 输入 概率 矩阵 进行 排序 ， 
概率 大 的 单字 词 会 列 在 前 面 。 


而 当 用 户 和 输出 的 是 一 个 “ 双 字 词 ? 时 融会 由 统计 产生 “jin-tian 转 移 窍 
阵 ? 和 “wo-men 转 移 官 阵 ? 这 样 的 统计 结果 ， 同 样 是 用 计数 的 统计 方法 即 
可 。 而 且 每 个 双 字 词 、 三 字 词 等 的 输入 统计 都 用 这 种 方法 。 在 输入 双 字 
词 汉 字 拼 音 时 会 根据 转移 概率 表 进 行 计算 。 多 个 词 相连 就 是 多 个 转移 矩 
阵 的 概率 相 乘 计 算 ， 从 而 得 到 概率 最 大 的 输入 可 能 项 








在 实际 应 用 的 过 程 中 ， 这 个 概率 矩阵 会 是 一 个 系数 和 矩阵， 在 磁盘 或 
者 内 存 上 肯定 不 会 像 这 4 个 表格 这 样 直接 列 成 一 个 方 阵 来 存储 的 。 而 且 
转移 概率 足够 小 ， 如 小 于 0.001 时 可 以 认为 是 输入 统计 中 的 噪声 点 ， 不 

进行 词汇 输入 推荐 ， 这 样 输 入 备 选 框 的 前 面 也 只 会 出 现 高 频 输入 词汇 ， 
这 样 备 选 框 比较 简洁 。 





代码 如 下 : 


# coding=utf-8 
import numpy as np 
jin = [E 


c 
Au 


'] 
jin per = [0.3. 


0.03] 
jintian = ['x 


E 




















1s 
添 


'] 
jintian_per = [ 
[0.001, 


. 001. 


. 001. 


. 001. 


. 001]. 


[0.001. 


. 001. 


. 001. 


. 001. 


. 001]. 


[0. 990, 


. 001, 


. 001, 


. 001, 


.001], 


[0.002, 


. 001, 


. 850, 


. 001, 


.001], 


[0.001. 


0.001, 


0.001, 


0.001, 


"Mg 


' 握 


wo per = [0.400, 


0.090, 


0.050 


0.030] 
women = [' 们 


"H 


'] 
women_per = [ 
[0.970, 


0.001, 


0.003, 


0.001, 


0.001], 


[0.001, 


0.001, 


0.001, 


0.001, 


0.001], 


[0.001, 


0.001, 


0.001, 


0.001, 


0.001], 


[0.001. 


0.001, 


0.001, 


0.001, 


0.001], 


[0.001, 


0.001, 


0.001, 


0.001, 


0.001] ] 
N=5 
def found from oneword.: 


oneword per». 


index - [] 
values - [] 
a = np.array < 


oneword per» 


for v in np.argsort ( 


a) 


-1] [: 


N]: 


index.append ( 


V) 


values.append ( 


oneword_per[v]> 


return index, 


values 
def found_from_twoword ( 


oneword per, 


twoword per»: 


last - 0 
for i in range ( 


len < 


jin_per) >: 


current = np.multiply < 


oneword per[i]. 


twoword per[i]» 


if i = 


las 
else: 


last = 


last, 


current) , 


axis=0) 


index = [] 
values = [] 
for v in np 


last) 


a] 


N]: 


t = current 


np.concatenate ( ( 


.argsort ( 


index.append ( 


[v / 5, 


v % 5p 


values.append: 


last[v]» 


return index. 


values 


def predict ( 


word) : 


if word == 'jin'. 


for i in found from oneword 


jin per» 


[0]: 


print jin[i] 
elif word == 'jintian': 


for i in found from twoword 


jin per. 


jintian per» 


[0]. 


print jin[i[0]] * jintian[i[1]] 
elif word == 'wo'. 


for i in found from oneword ( 


wo per» 


[0]. 


print wo[i] 
elif word == 'women': 


for i in found from twoword ( 


wo per. 


women per» 
[0]: 
print wo[i[0]] + women[i[1]] 
elif word == 'jintianwo': 
indexi. 


Values1 = found from oneword: 


wo per») 


index2, 


values2 = found from twoword : 


jin per. 


jintian per» 


last = np.multiply < 


valuesi. 


values1) 


for i in np.argsort « 


last» 


a] 


N]: 


print jin[index2[i][0]]. 


jintian[index2[i][1]]. 


wo[i] 
elif word -- 'jintianwomen': 


indext1, 


Values1 = found from twoword : 


jin per. 


jintian per» 


index2, 


values2 = found_from_twoword : 


wo_per. 


women per» 


last = np.multiply < 


valuesi, 


values1) 


for i in np.argsort < 


last) 


a] 


N]: 


print jin[indexi[i][0]]. 


jintian[indexi[i][1]]. 


wo[index2[i][0]]. 


women[index2[i][1]] 
else: 





predict « 


'jin') 


predict: 


'jintian'» 






































predict ( 


'wo'» 


dk 
Jy 


predict ( 


'women'» 


# 我 们 


# R 


# RI 


# RH 


# 我 拉 


predict ' 


'jintianwo'» 


# 今天 我 




















# 近 填 握 




















predict ( 


'jintianwomen'» 


# 今天 我 们 








# 金田 我 问 
































7 近 田 我 拉 


# ERA 


# 近 天 我 门 








根据 算法 ， 示 例 输入 会 在 输入 ”jin”、“jintian”、“jintianwo”、“jintianwomen” 时 分 别 排序 输出 : 

















jintian": SK, 4 





jintianwo": 今天 我 


jintianwomen": 今天 我 们 


10.4.2 ”前 向 算法 


再 来 看 问题 2 所 涉及 的 问题 , “CEREAL Ba RAS), 
PERAK ETA CRR) ARTE aR Cay RAS 
$E) ， 想 知道 掷 出 这 个 结果 的 概率 "， 解 决 这 个 问题 的 算法 叫做 前 向 算 
iX (Forward Algorithm) 。 





还 是 来 看 这 个 例子 : PRA CHIH ROGA ZEE AL. RT 
BE Be RM BN TE) NT ORE LIEBE, Æ 
1/2， 掷 出 来 是 2、3、4、5、6 的 概率 是 10。 应 该 怎么 办 ? 答案 很 简 
单 ， 算 一 算 正常 的 3 个 角 子 据 出 一 段 序列 的 概率 ， 再 算 一 算 不 正常 的 六 
面 骨 子 和 另外 两 个 正常 角子 折 出 这 段 序 列 的 概率 。 如 果 前 者 比 后 者 小 ， 
就 要 小 心 了 。 例 如 ， 括 山子 的 结果 如 图 10-13 所 示 。 








要 算 用 正常 的 3 个 货 子 掷 出 这 个 结果 的 概率 ， 其 实 就 是 将 所 有 可 能 
情况 的 概率 进行 如 和 计算 。 同 样 ， 简 单 的 方法 就 是 穷 举 所 有 的 人 般 子 序 
列 ， 还 是 计算 每 个 角子 序列 对 应 的 概率 ， 但 是 这 回 不 挑 最 大 值 了， 而 是 
把 所 有 算出 来 的 概率 相 加 ， 得 到 的 总 概率 就 是 要 求 的 结果 。 这 个 方法 依 
然 不 能 应 用 于 太 长 的 货 子 序列 《马尔 可 夫 链 ) 。 这 里 应 用 一 个 和 前 一 个 
问题 类 似 的 解法 ， 只 是 前 一 个 问题 关心 的 是 概率 最 大 值 ， 这 个 问题 天 心 


的 是 概率 之 和 。 首 先 ， 如 果 只 掷 一 次 人 般 于， 如 图 10-14 所 示 。 





结果 为 1。 产 生 这 个 结果 的 总 概率 可 以 按照 如 表 10-8 所 示 计算 ， 总 
概率 为 0.18〈 表 格 中 取 的 都 是 约 等 值 ) 。 

_ i 

Y oy v 

© © © 
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表 10-8 ”概率 

















把 这 个 情况 拓展 ， 掷 两 次 仍 子 ， 如 图 10-15 所 示 。 


i | 
© © 


Kl10-15 MARRET 


概率 如 表 10-9 所 示 。 


表 10-9 ”概率 














P1 P2 
1.1 d 1 E xil 
D4 =*= ~ 0.083 P\(D4) *—* 0+ P1(D6) *—*0+ P1(D8)*—*0=0 
3.4 12 3 3 3 
1.1 1 1.4 Lol Lf 
D6 l*—-—.a0.056 P\(D4) *—*—+ P1(D6)*—*—+ PI(D8) *—*— ~ 0.01 
3 6 18 (9 3 6 s) 3 6 (D$) 3 6 
D8 tele ~0.042 PiD4)*1*l4 pype) +++ pyps)*t +1 x 0.007 5 
3 :8 24 3 8 3 8 3 8 
总 计 0.18 0.018 








继续 拓展 ， 计 算 据 骨 子 3 次 的 情况 ， 如 表 10-10 所 示 。 


同样 ， 如 果 有 更 长 的 撕 散 子 序 列 ， 也 能 进行 统计 和 计算 。 用 一 样 的 
方法 进行 计算 ， 可 以 算出 正常 的 六 面 般 子 和 为 外 两 个 正和 常 角子 撕 出 这 个 
序列 的 概率 ， 然 后 比较 一 下 两 个 序列 概率 的 大 小 就 能 知道 般 子 是 否 补 人 
置换 过 。 在 这 个 例子 里 ， 如 果 发 现 使 用 的 人 般 子 掷 出 来 的 序列 的 出 现 概率 
比 计算 出 来 的 “标准 ”概率 低 很 多 或 者 高 很 多 ， 那 就 很 可 能 是 被 置换 过 
的 。 











表 10-10 概率 




















P1 P2 PS 
D4 dol dw pgs PKD4*1«o« pipe *1*o« pipg*l*0-0 pxpay*l«l, pope *l«li pos)*t+) 20.001 5 
T 机 有 多 3 3 3 = T 34 34 — 
ES d xe Ici mE 1.1 1.1 1.1 1.1 
1.1.1 0056 Pipal pipe t=1s pypgjsl«1,991 pxpaslslipyposlsl.popgy*l«li0000 97 
Ds 3 6 18 NN Nac La" P3 e Oe 8 e 
Bá l.l. 1 20942 P(pAslsl, pipe sl«li pipgysl«lio097 5 pxpa*l«li pypeyslsl. po(pg*1l«1.0000 73 
3 8 24 3 8 3 8 3 8 3 8 3 8 3 8 
总 计 0.18 0.018 0.003 2 











10.5 ”支持 同 量 机 SVM 


支持 同 量 机 SVM 是 一 种 比较 抽象 的 算法 概念 ， 全 称 是 Support 
Vector Machine， 它 可 以 用 来 做 模式 识别 、 分 类 或 者 回归 的 机 器 学 习 


ii 


HUT SP 28 OL ae E 2 26 79. Y REEM RARR a, E 
DEA, FEE AS AE IE A PS T8 I PB RT SR ROE 
到 新 样本 时 就 能 用 这 个 算法 把 它 进行 分 类 了 。 





初 高 中 数学 里 学 的 不 少数 学 概念 其 实 已 经 是 分 类 的 概念 了 ， 只 是 太 
稀 松 平 闸 ， 从 学 术 上 不 能 把 它们 归 为 机 器 学 习 的 算法 ， 因 为 这 简直 无 须 
学 习 。 例 如 ， 大 于 零 的 实数 叫 正 数 ， 小 于 零 的 实数 叫 负 数 。 这 是 一 个 定 
义 ， 但 同时 也 是 一 个 算法 。 数 学 表达 式 如 下 : 


7 { Positive x>0 
属性 = 
| Negative x«0 
所 以 ， 如 果 有 一 个 实数 x， 判 断 x 属 于 正 数 (Positive) 还 是 负数 
(Negative) ， 只 要 在 这 个 算法 里 一 套 ， 立 刻 束 能 进行 分 类 ， 这 简直 是 


AMET. 


过 程 其 实 不 是 一 个 机 器 学 习 过 程 ， 细 心 的 读者 应 该 能 注意 到 ， 
这 里 似乎 看 不 到 有 “学 习 ” 这 个 过 程 存 在 。 没 错 ， 这 个 方法 和 我 们 在 “机 








are 21" 2 Bl 55 INES UL Pe — FER, SEXE OR RTT EL 
判定 的 定义 如 何 ， 然 后 计算 机 根据 这 个 判定 的 定义 来 处 理 每 一 个 待 判定 
的 对 象 。 这 里 面 计算 机 确实 没有 这 个 学 习 的 过 程 。 








什么 情况 下 就 算 开 始 学 习 的 过 程 了 呢 ? 下 面 把 上 述 例子 “进化 ”。 


10.5.1 年龄 和 好 坏 


如 果 到 了 茶 公 司 工作 ， 领 导 交 代 任 务 :“ 来 ， 把 这 些 客户 给 我 分 分 
类 。 看 看 什么 样 的 用 户 质 量 比较 高 ， 什 么 样 的 用 户 质量 比较 低 。 以 后 业 
务 部 门 去 拓展 就 能 提高 客户 发 展 的 效率 。” 客 户 信息 列表 如 表 10-11 所 


























Ze 
M fos 
#10-11 客户 信息 
客户 编号 客户 年 龄 客户 质量 客户 编号 客户 年 龄 客户 质量 
SCXONX: 34 好 NS 30 p f 
XOX 33 好 XXXX 25 ANY f 
KXXX 32 好 XXXX 23 不 好 
XXXX 31 好 SOUXX 22 不 好 
XXXX 30 好 XXXX 18 不 好 




















在 这 个 列表 中 ， 只 能 看 到 “客户 年 龄 "和 “客户 质量 ”两 个 列 ， 这 个 例 
子 已 经 是 比较 极端 的 例子 了 ， 因 为 在 这 里 从 一 开始 就 认为 只 有 客户 年 龄 
有 可 能 会 跟 客 户 质 量 有 关系 。 客 户 质量 是 由 具体 的 业务 部 门 根据 他 们 的 
评价 标准 来 做 的 衡量 ， 衡 量 标准 是 不 是 合理 暂且 不 管 一 一 因为 不 管 他 们 
内 部 用 什么 衡量 标准 ， 肯 定 是 有 他 们 自己 的 评价 体系 去 做 ， 总 之 客户 质 
量 是 能 够 这 样 描述 就 行 了 。 再 来 看 “客户 年 龄 "这 一 列 ， 这 个 列表 在 真实 
情况 下 有 可 能 会 非常 长 ， 如 果 有 10000 个 客户 ， 那 就 可 能 有 10000 行 ， 这 
里 示意 性 地 找 出 10 行 来 演示 ，10000 行 也 是 同样 的 原理 。 那 在 这 个 有 限 
言 息 的 模型 里 只 能 通过 年 龄 来 对 客户 质量 好 不 好 进行 评价 了 ， 如 图 10- 




















en 
oo 
N 
N 
N 


3 25 30 31 32 33 34 


图 10-16 客户 信息 的 数 轴 表 示 


从 图 10-16 中 可 以 看 出 ，30 以 上 的 都 好 ，25 以 下 的 都 不 好 。 也 就 是 
说 可 以 考虑 在 “客户 年 龄 "字段 的 90 和 25 中 间 切 一 刀 ， 一 边 是 好 一 边 是 不 
好 ， 那 么 切 在 哪儿 好 呢 ? 直观 上 看 ， 似 乎 应 该 是 切 在 〈30+25) /2 的 位 
置 ， 也 就 是 27.5， 这 基本 上 也 是 从 目前 的 情况 能 够 得 到 的 最 为 合理 的 方 
案 。 例 如 ， 来 了 一 个 27 岁 的 新 客户 ， 那 么 他 更 有 可 能 是 “好 ”的 客户 还 
是 “不 好 ”的 客户 呢 ? 因 为 看 起 来 离 “ 不 好 ”客户 这 边 更 近 ， 所 以 算 “ 不 
好 ”的 客户 应 该 更 合理 ， 如 图 10-17 所 示 。 























10-17 ”以 27.5 为 分 界 





如 果 这 种 例子 怎么 办 ? 例如 ， 客 户 信 息 列表 如 表 10-12 所 示 。 


3610-12 客户 信息 

















客户 编号 客户 年 龄 客户 质量 客户 编号 客户 年 龄 客户 质量 
KXXX 34 好 XXK 30 好 
XXXX 33 好 XXXX 25 不 好 
XXXX | 32 好 XXXX 23 好 
XXXX 31 不 好 XXXX 22 不 好 
XXXX 30 好 XXXX 18 不 好 




















数 轴 表 示 如 图 10-18 所 示 。 
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22 23 25 27.5 30 31 32 33 


图 10-18 ”客户 信息 的 数 轴 表 示 





这 个 就 比较 抹 烦 了 ， 因 为 发 现 没 有 办 法 做 到 一 思 切 ， 确 实 做 不 到 ， 
怎么 切 都 至 少 有 一 方 “成 分 不 纯 ”"。 那 么 现在 有 以 下 两 种 选择 。 


(1) 把 这 两 类 全 部 标 出 来 : 


| Good xz 30. x Æ 3l 


gn Good x-23 
"7  |NotGood x € 25.x ¥ 23 
NotGood x33] 


这 又 是 一 个 分 段 函 数 一 样 的 标记 ,准确 ， 但 是 标记 起 来 相当 哆 嗓 。 
别 生 了， 你 可 能 是 在 10000 个 甚至 更 多 的 客户 对 象 里 去 做 这 个 事情 ， 最 
后 函数 搬 述 会 不 会 一 张 A4 纸 部 印 不 下 可 说 不 准 了 ， 毕 苋 这 个 天 系 古 从 
得 到 的 数据 里 归纳 而 来 的 ， 实 际 有 多 复杂 只 有 看 实际 情况 了 。 上 所 以 这 种 
标记 方法 容易 产生 的 问题 就 是 过 拟 。 过 拟 在 第 8 章 已 经 接触 过 了 ， 即 为 
了 通 近 “事实 ?而 让 描述 变 得 过 于 复杂 的 情况 。 














D 一 思 切 。 有 反正 只 要 一 刀 切 会 非 第 简洁 ， 如 果 这 一 思 切 下 去 虽 
然 两 边 的 类 都 不 纯 或 者 一 边 的 类 不 纯 ， 但 是 只 要 不 纯 的 程度 在 能 容忍 的 


范围 内 就 可 以 。 


gH | Good x > 27.5 
~ |NotGood x < 27.5 


这 次 还 是 试 着 从 27.5 切 ， 大 于 等 于 27.5 的 就 算是 “好 >”， 小 于 27.5 的 算 
是 “不 好 ”。 那 么 这 个 分 类 中 “好 ”类 的 “不 纯度 ”为 16， 约 为 16.7%;“ 不 
好 ”类 的 “不 纯度 "为 4， 即 25%。 这 个 比率 反正 在 我 看 来 还 是 挺 高 的 ， 
一 般 来 说 , “不 纯度 ”肯定 是 越 低 越 好 ， 在 这 个 场景 里 不 确定 16.7% 的 不 
纯度 是 不 是 能 够 满足 领导 的 需要 。 如 果 说 原来 在 不 做 这 种 数据 分 析 的 情 
况 下 ， 发 展 10 个 客户 ， 有 6 个 是 “好 ”客户 ，4 个 是 “不 好 ”的 客户 ， 现 在 改 
进 后 虽然 有 一 定 的 误 判 率 一 一 由 于 分 类 不 纯 的 问题 ， 但 是 直接 过 滤 掉 一 
些 对 象 ， 发 展 10 个 客户 有 8.3 个 是 “好 ”的 客户 ， 还 有 大 概 1.7 个 是 “不 
好 ”的 客户 。 从 数值 上 看 ， 方 案 策略 的 提升 应 该 是 有 改进 的 。 

















忆 结 一 下 ， 上 述 例子 里 有 以 下 几 个 关键 性 的 信息 。 


关键 点 1: 切 下 去 点 在 SVM 算法 体系 里 叫 “ 超 平面 "。 这 个 “ 超 平 
面 ? 是 一 个 抽象 的 面 概 念 ， 在 一 维 空间 里 就 是 一 个 点 ， 用 x+A=0 来 表 
qu 二 维 空间 里 就 是 一 条 线 ， 用 Ax+By+C=0 的 直线 来 表示 ; 三维 空间 
里 就 是 一 个 面 ， 用 Ax+By+Cz+D=0 的 平面 来 表示 ; 四 维 空间 就 想象 这 个 
面 的 存在 吧 ， 但 是 可 以 推断 出 应 该 是 用 Ax+Byt+Cz+Da+E=0 来 表示 ， 以 
此 类 推 .…... 上 述 4 个 方程 都 可 以 变形 为 


的 这 种 形式 。 


在 上 述 例子 中 ， 相 当 于 是 在 一 个 一 维 空间 里 在 x=27.5 的 位 置 画 了 一 
个 “ 超 平面 ”〈 零 维 的 点 ) 。 即 x-27.5=0 这 个 方程 就 是 超 平面 。 即 x-27.5> 
0 的 都 是 分 类 为 “好 ”的 样本 ，x-27.5<0 的 则 都 不 是 分 类 为 “好 ”的 样本 。 














关键 点 2: 过 拟 问题 ， 一 般 来 说 ， 设 计 分 类 器 都 是 要 尽量 避免 过 拟 
的 。 过 拟 会 给 归纳 过 程 融 来 很 大 的 麻烦 ， 而 且 在 应 用 的 过 程 中 也 非常 不 
方便 ， 只 要 精确 度 达到 标准 吏 足 够 了 。 什 么 是 精确 度 ， 就 是 要 说 的 最 后 
一 点 。 





关键 点 3: 不 纯度 问题 。 不 纯度 和 精确 度 是 一 对 矛盾 ， 精 确 度 越 高 
那么 不 纯度 就 越 低 ， 反 之 ， 不 纯度 越 高 精确 度 就 越 低 。 分 类 器 的 研究 和 
调整 的 过 程 是 一 个 精度 和 成 本 平衡 的 过 程 ， 所 以 并 不 是 不 纯度 越 低 越 
好 ， 而 是 在 实际 生产 中 操作 成 本 一 样 的 情况 下 ， 不 纯度 越 低 越 好 。 








10.5.2 “FIRA 


在 上 一 个 例子 里 发 现 样本 在 维度 单纯 〈 只 有 一 个 年 龄 维度 ) ， 而 
且 “ 分 界线 ?比较 清晰 的 情况 下 ， 几 乎 没有 用 到 任何 超过 高 中 及 以 上 学 历 
所 学 的 知识 内 容 束 能 轻易 解决 。 


如 果 x 的 分 布 复 杂 一 些 ， 情 况 会 怎么 样 ? 


下 和 面 举 一 个 三 角 函 数 作为 分 界线 的 例子 ， 如 图 10-19 所 示 。 





10-19 ”sinx 的 图 形 


图 10-19 中 有 两 类 样本 ， 一 类 是 用 圆圈 标识 出 来 的 A 类 别 ， 一 类 是 用 
三 角 标 识 出 来 的 B 关 别 。 如 宋 碰 巧遇 到 这 种 情况 ， 在 一 个 Go y) 二 维 
向 量 组 成 的 空间 上 有 大 量 的 样本 《这 比 在 只 有 一 个 空间 维度 年 龄 x 要 复 








杂 一 些 ) ,但 是 恰好 两 类 样本 能 用 一 个 函数 巧妙 地 分 开 ， 能 保证 简洁 
(不 过 拟 ) 和 精确 〈 不 纯度 极 低 ) 。 如 果 y=sin GO 这 样 的 曲线 能 够 恰 
好 把 它们 分 开 ， 将 是 一 条 非常 简洁 的 分 割 线 〈 虽 然 不 是 直线 ) 。 


但 是 ， 机 器 学 习 的 方法 基础 都 是 统计 和 归纳 ， 从 大 量 样 本 空间 来 的 
样本 可 没有 那么 简单 ， 如 果 找 不 到 一 个 像 y=sin GO 这 么 简洁 的 曲线 来 
分 割 怎么 办 ? 是 不 是 只 能 面临 过 拟 的 情况 ?如 果 下 一 个 是 y=cos (x) ， 
或 者 y=sin (x) +log GO 怎么 办 ， 会 每 次 那么 幸运 都 能 轻易 找到 一 条 简 


洁 的 曲线 来 解决 问题 吗 ? 





人 们 研究 机 器 学 习 的 目的 是 使 用 具备 广 谱 性 的 算法 思路 来 解决 多 样 
的 事情 ， 如 果 解 决 每 一 个 问题 都 是 不 同 的 解法 ， 甚 至 思路 迎 异 ， 那 这 种 
Case by Case 的 方式 完全 不 能 被 称 为 一 类 解决 方法 。 而 现在 讨论 的 文 持 


问 量 机 SVM 就 是 要 解决 这 类 问题 ， 它 也 号 称 是 万 能 分 类 器 。 





10.5.3 ”距离 有 多 远 


在 一 个 平面 直角 坐标 系 中 ， 有 一 些 样 本 点 作为 训练 点 ， 一 些 被 标记 
为 类 别 X， 一 些 标记 为 非 类 别 X。 也 就 是 样本 训练 中 ， 一 些 样本 明确 标 


出 是 这 个 分 类 ， 而 男 一 些 样本 标 出 不 是 这 个 分 类 。 


最 朴 系 的 想法 是 ， 如 果 能 找到 一 条 直线 Ax+By+C=0 能 够 恰好 把 它 
们 区 分 成 两 个 部 分 就 最 好 了 。 那 么 这 条 线 应 该 怎么 来 找 呢 ? 





如 果真 的 像 图 10-19 所 画 这 样 ， 那 么 确实 会 有 一 条 直线 
Ax+By+C=0， 问 题 是 就 像 用 逐 差 法 求解 重力 加 速度 g 的 过 程 一 样 ， 这 个 
Ax+By+C=0 有 很 多 种 画 法 。 在 求解 重力 加 速度 g 的 那 一 节 讨论 过 ， 有 一 
种 叫做 最 小 二 乘法 的 办 法 可 以 求 出 一 个 使 得 回归 后 误差 最 小 的 解 。 那 么 
在 求解 这 个 Ax+By+C=0 的 过 程 中 也 是 为 了 求解 出 适当 的 A 和 B， 让 这 两 
个 组 分 开 最 为 恰当 。 恰 当 的 标准 是 让 类 别 X 中 与 该 直线 最 近 的 样本 点 的 
距离 和 非 类 别 X 中 的 样本 点 中 与 该 直线 的 距离 最 大 。 








这 和 回归 中 希望 拟 合 出 来 的 曲线 和 得 到 的 样本 尽 可 能 贴近 这 一 观点 
接近 ， 这 里 画 出 的 这 条 直线 是 希望 让 被 分 开 的 两 个 类 别 〈 类 别 X 和 非 类 
别 X〉 尺 可 能 远 ， 也 就 是 相差 越 远 分 得 越 开 。 相 反 ， 如 果 划 了 一 条 线 几 
乎 要 同时 经 过 一 个 类 别 X 的 样本 点 和 一 个 非 类 别 X 的 样本 点 ， 那 出 现 一 
个 新 的 和 X 很 < 像 ”的 样本 点 则 很 容易 被 画 到 非 类 别 X 中 去 ， 这 和 期 望 的 








在 平面 直角 坐标 系 中 ， 如 果 有 一 条 直线 ， 方 程 是 Ax+By+C=0， 那 
AR Co yo) 到 该 直线 的 距离 如 下 : 


J= | Ax, + By, +C 





如 果 数 轴 上 也 需要 用 类 似 : “x-27.5>0 的 都 是 分 类 为 "好 ”的 样本 ，x- 
27.5 二 0 的 则 都 不 是 分 类 为 ‘好 的 样本 。” 这 种 方式 来 做 分 割 ， 有 了 
Ax+By+C=0 这 样 一 个 方程 等 于 有 了 一 个 工具 ， 可 以 发 现 ， 所 有 X 类 别 中 
的 样本 点 都 满足 Ax+By+C>0， 而 反之 所 有 非 X 类 别 中 的 样本 点 都 满足 
Ax+By+C<0， 当 然 这 个 结果 也 是 最 开始 构造 Ax+By+C=0 这 条 线 的 目 
的 。 











推广 一 下 ， 三 维 空间 上 的 超 平面 划分 后 两 个 分 类 (一 个 是 目标 分 
类 ， 一 个 不 是 目标 分 类 ) AéaGhie— 8g AxtBytCz*D-05—^'ipi 


JEAx+By+Cz+D<0. 


DY 2: 25 fa] _E JE Ax+By+Cz+Da+E > 04 Ax+By+Cz+DatE<0. 








其 实 样子 看 上 去 相当 类 似 ， 痢 是 各 维度 坐标 点 前 面 乘 以 一 个 系数 之 
后 再 加 一 个 第 数 。 可 以 把 这 个 超 平面 的 公式 简写 成 


g(v) = wv-b 








vÆ ANE, bE H Ao 


在 二 维 空间 里 ，v 就 是 (x，y) ， 在 三 维 空间 里 Vv 就 是 (x, y 
Z) ， 其 余 情况 以 此 类 推 ， 而 w 也 是 一 个 向 量 ， 在 二 维 空间 里 w 就 是 
CA, BO ， 在 四 维 空间 里 w 就 是 (A，B，C) ， 其 余 情况 以 此 类 推 。 而 
wt 在 二 维 空间 里 就 是 Ax+By， 在 三 维 空间 里 就 是 Ax+By+Cz。 如 果 看 到 








g(x)=w x+b 


或 者 
g(x)=wx+b 
或 者 
g(x)=w : x-b 
这 几 种 形式 意思 是 一 样 的 ， 其 中 的 x 都 不 是 一 个 实数 值 而 是 在 不 同 


维度 空间 下 的 回 量 。 


10.5.4 ”NN 维度 空间 中 的 距离 





在 g (v) =wv+b 这 种 定义 方式 中 ，w 是 一 个 1xn 的 矩阵 ，v 是 一 个 nx1 
的 矩阵 ，wv 就 是 两 个 矩阵 做 了 一 个 内 积 ， 也 就 是 所 ”，n 是 维度 的 数 
量 ，w 就 是 每 个 维度 变量 前 面 的 系数 ，v; 就 是 每 个 维度 变量 。 


在 二 维 空间 内 ， 一 个 点 o> Yo) 到 一 条 直线 Ax+By+C=0 的 距离 
如 下 : 
Ax, + By, 4 C 
A^ SB 





i= 





在 三 维 空 间 内 ， nd ie =| (Xo , yo , Zo ) 到 一 个 平面 
Ax+By+Cz+D=0 的 距离 如 下 : 
_ | Ax, + Byy + Cz, 4 D 
A’ +B’ +C? 


d 





在 一 维 空间 内 ， 一 个 点 Oo) 到 一 个 点 Ax+B=0 的 距离 如 下 : 
|. B 
| 


但 同时 


规律 性 己 经 非常 明显 了 。 


在 有 些 书 上 会 介绍 一 个 叫做 范 数 的 概念 ， 上 述 YE VP 、 
PRE 等 分 别 就 是 一 维 空间 、 二 维 空间 、 三 维 空间 中 的 范 数 ， 写 
作 |lwll。 在 不 同 的 维度 下 ， 这 个 范 数 ||wl 的 具体 值 是 不 一 样 的 ， 是 超 平面 
方程 的 各 维度 系数 的 平方 和 再 开 方 ， 是 一 个 和 超 平面 描述 方程 系数 相关 
的 定 值 。 


这 样 一 来 ， 距 离 公 式 就 可 以 简写 成 
l 
d= gt) 
|w 


维度 确定 时 这 个 公式 中 所 有 的 值 都 是 确定 的 。 要 判断 一 个 点 到 这 个 
平面 的 距离 ， 只 要 把 空间 坐标 代入 v 即 可 。 





10.5.5 ” 超 平 面 怎 么 男 





上 述 例子 实际 上 是 在 空间 里 先 男 一 个 g《〈V) 的 平面 ， 然 后 代入 所 有 
的 样本 点 ， 每 个 点 到 这 个 超 平 面 的 距离 都 能 求 出 来 ， 但 是 这 个 平面 并 不 
平面 。 这 里 其 实 有 点 本 末 倒 置 ， 因 为 超 平面 的 目的 是 把 样本 点 分 成 
-类 “是 ”， 一 类 “不 是 "。 那 么 这 个 平面 的 产生 是 要 有 约束 条 件 
的 ， 人 至 少 是 要 受到 样本 的 影响 和 制约 的 ， 而 在 g (v〉=wv+b 这 个 公式 展 
开 的 表达 中 看 到 这 样 的 约束 了 吗 ? 完全 没有 。 














到 和 
ee 


直观 的 感觉 是 这 样 : 希望 的 是 找到 一 个 平面 作为 超 平面 ， 它 恰好 在 
两 个 类 中 间 分 开 ， 以 它 为 基准 画 两 个 与 它 平行 的 平面 ， 让 这 两 个 平面 分 
别 问 两 个 方 同 平行 移动 ， 即 一 个 同类 别 X 聚 集 的 方 同 移动 ， 一 个 癌 非 类 
别 X 聚 集 的 方 癌 移动 。 当 这 两 个 平面 同时 《等 距离 ) 分别 触 碰 到 类 别 X 
和 非 类 别 X 的 点 时 停止 下 来 ， 记 录 这 个 平面 的 w 和 b， 记 录 此 时 的 移动 距 
离 5。 这 样 的 平面 也 许 不 止 一 个 ， 但 是 会 找到 一 个 能 让 5 尽 可 能 大 的 值 ， 
这 个 能 产生 最 大 6 值 方案 的 w 和 b 所 构成 的 g (v) =wv+b 束 是 要 找 的 超 平 
面 。 

















直观 感 党 就 是 我 们 男 了 一 个 平面 把 一 类 “是 ” 一 类 “不 是 ”这 两 类 样 
本 分 隔 开 ， 并 且 让 它们 到 超 乎 面 的 距离 都 尽 可 能 大 ， 这 就 是 原则 。 








这 个 平面 是 完全 有 可 能 通过 程序 找 出 来 的 。 


10.5.6 分 不 开 怎 么 办 


由 于 得 到 的 众多 的 〈v，y) 样本 分 类 是 不 确定 的 一 一 v 为 多 维 空间 
上 的 样本 ，y 为 分 类 只 有 0 和 1 两 种 状态 。 所 以 确实 没有 办 法 保证 在 当前 
的 空间 上 一 定 能 有 一 个 超 平面 把 它们 清晰 地 隅 开 ， 或 者 说 不 管 怎 么 男 ， 
这 个 超 平面 都 会 产生 让 人 不 能 忍受 的 误 判 率 ， 如 图 10-20 所 示 。 





ay 





[s 





FT AB ae AAR EA RAS, OMT OLA OY APE AS RIA). FESS AEE 
以 下 ， 用 肉眼 观察 有 限 的 几 个 样本 还 是 能 够 一 目 了 然 地 做 判断 的 ， 可 以 
判断 是 不 是 线性 可 分 ， 如 果 维 度 超 过 3 个 或 者 样本 数量 太 多 就 不 好 观察 
了 ， 这 时 要 使 用 计算 机 进行 计算 。 可 以 转化 一 种 思路 来 解决 这 个 问题 





了 ， 即 升 维 一 一 这 才 是 SVM 算法 最 为 吸引 人 的 部 分 。 





先 来 看 一 个 一 维 数据 的 例子 ， 来 说 明 升 维 的 概念 。 


假设 在 数 轴 上 给 出 一 些 数据 ， 其 中 [-2，2] 区 间 内 的 被 标记 成 了 分 类 
1， 其 余 的 都 是 分 类 0， 能 够 给 出 一 个 分 段 函数 吗 ? 似乎 不 能 。 怎 么 去 定 
义 这 个 切 开 的 点 都 会 产生 大 量 的 误 分 类 。 但 是 换 一 个 办 法 可 能 就 能 顺利 
地 解决 。 例 如 ， 在 这 个 例子 里 可 以 构造 一 下 ， 在 [-2，2] 这 个 区 间 里 让 一 








个 函数 大 于 0， 而 在 其 他 部 分 小 于 0。 例 如 ， 把 分 类 函数 写成 以 下 形式 : 
F(x) A * PM 
(0 -x +4 =0 
或 者 可 以 认为 
f(y) = [1 y 
9)71o À 
H 
y -—x^*4 
而 
z —f(y) 


y=-x* +4 图 形 如 图 10-21 所 示 ， 这 实际 上 是 y=-x +4 这 个 函数 在 


y=0 (xt) 这 条 直线 上 的 投影 。 





图 10-21 y=-x2+4 A 





s 间 中 也 有 类 似 的 方式 ， 例 如 ， 如 果 样 本 癌 量 v 距 离 


同样 ， 在 二 维 空 
其 余 都 是 1。 同 样 是 线性 


原点 〈0，0) 的 距离 为 1 以 内 分 类 被 标记 为 0， 
不 可 分 ， 但 是 可 以 构造 一 个 这 样 的 函数 : 





] q^ 34 d 


f(x,y) = | ba at 
0 x+y <l 


或 者 可 以 这 么 认为 : 


D. . 
ox Ty 


x? «y? -1 的 图 形 如 图 10-22 所 示 。 





\ X ] 
3 | w 起 始 值 : | 结束 值 ; 
x i X 10.0000 10.0000 
. 3 





Y =10.0000 10.0000 
Z ~64.1513 188482 


图 10-22 x? +y? -1 的 图 形 


同样 用 非常 简洁 的 方式 解决 了 这 个 分 类 问题 。 不 过 可 能 有 的 朋友 要 
说 了 ， 这 个 也 太 凑 巧 了 吧 ， 我 们 不 可 能 每 次 都 这 么 幸运 找到 这 种 函数 通 
过 观察 就 很 快 构造 出 分 类 函数 《〈 超 平面 方程 ) 。 没 错 ， 我 们 平时 生产 生 


活 中 遇 到 的 例子 基本 都 是 线性 不 可 分 的 ，SVM 就 是 要 解决 这 个 问题 。 





可 以 看 到 ， 在 一 维 空间 上 解决 线性 不 可 分 问题 是 把 函数 映射 到 二 维 
空间 ， 使 得 一 维 空 间 上 的 分 类 边界 是 二 维 空间 上 的 分 类 函数 在 一 维 空间 
上 的 投影 ， 而 在 二 维 空间 上 解决 线性 不 可 分 问题 是 把 函数 映射 到 三 维 空 
间 ， 使 得 二 维 空间 上 的 分 类 边界 是 三 维 空间 上 的 分 类 函数 在 二 维 空间 上 
的 投影 。 那 么 所 有 的 n 维 空间 上 的 线性 不 可 分 的 问题 都 可 以 考虑 映射 到 
n+1 维 上 去 构造 分 类 函数 ， 使 得 它 在 n 维 空间 上 的 投影 能 够 将 两 个 类 别 分 
FF 








这 个 构造 过 程 SVM 是 有 通用 的 方法 可 以 解决 的 ， 就 是 使 用 核 函数 
(Kernel) 进行 构造 。 而 且 ， 有 几 个 常用 的 核 函 数 是 可 以 拿 来 直接 使 用 
的 ， 如 线性 核 函 数 、 多 项 式 核 函数 、 径 问 基 核 冰 数 RBF 核 阔 数 ) . 
WA RBS, Hee AANA = HLS 








核 函数 的 目的 很 早 纯 ， 即 只 要 在 当前 维度 空间 的 样本 是 线性 不 可 分 
的 ， 就 一 律 映 射 到 更 高 的 维度 上 去 ， 在 更 高 的 维度 上 找到 超 平面 ， 得 到 
超 平 面 方程 。 而 在 更 高 维度 上 的 超 平面 方程 实际 并 没有 增加 更 多 的 维度 
变量 ， 更 高 的 这 个 维度 只 是 像 在 解 几何 题 里 使 用 的 辅助 线 而 已 ， 最 后 得 
到 的 方程 不 会 增加 其 他 维度 。 例 如 ， 研 究 二 维 空间 上 的 向 量 分 类 问题 ， 
那么 经 过 核 函 数 映射 ， 最 后 得 到 的 超 平面 变 成 了 二 维 空间 上 的 曲线 (但 
同时 也 是 三 维 空间 上 的 一 次 方程 》; 研究 三 维 空间 上 的 向 量 分 类 问题 ， 
那么 经 过 核 函 数 映 射 ， 最 后 得 到 的 超 平 面 变 成 了 三 维 空间 上 的 曲面 《但 
同时 也 是 四 维 空间 上 的 一 次 方程 》。 函 数 表示 只 是 一 个 变量 代 换 关系 。 














10.5.7 示例 


为 了 方便 说 明 ， 这 里 还 是 用 熟悉 的 例子 给 出 一 个 分 类 用 法 的 示例 ， 
客户 信息 列表 如 表 10-13 所 示 。 





表 10-13 客户 信息 














客户 编号 客户 年 龄 客户 质量 客户 编号 客户 年 龄 客户 质量 
KXXX 34 好 XXXX 30 好 
NANY 33 不 好 KXXX 25 不 好 
XXX 32 好 XXXX 23 好 
SOK. 31 不 好 XXXX 22 不 好 
XXXX 30 好 RINK 18 好 





























这 个 例子 很 极端 了 ， 因 为 客户 年 龄 和 客户 质量 之 间 已 经 是 没 办 法 做 
线性 分 制 了 。 这 时 可 以 用 SVM 来 做 分 类 。 


在 Python 的 Scikit-learn 库 中 ， 用 到 的 是 一 个 叫做 SVC 的 类 ，SVC 有 是 
Support Vector Classification 的 缩写 ， 即 文 持 向 量 分 类 机 。SVC 上 所 文 持 的 
核 函 数 包括 linear( 线 性 核 函 数 ) ~ poly (多 项 式 核 函 数 ) 、rbf( 径 向 
基 核 函数 ) ~ sigmoid (神经 元 激活 核 函 数 ) 、precomputed( 自 定义 核 
函数 ) » BRU AE FA rb ETA KZ. 





在 这 个 例子 中 ， 将 使 用 rbf 核 函数 ， 这 也 是 最 适合 做 非 线性 关系 分 类 
标准 的 首选 核 函 数 。 如 果 这 几 种 核 冰 数 实在 不 知道 该 用 哪个 ， 那 束 在 实 
际 场景 中 多 做 对 比 测试 ， 看 看 哪 一 种 的 正确 率 更 高 ， 切 葛 纠 结 于 学 术 层 





面 的 推导 困难 而 不 敢 实 践 。 代 码 如 下 : 





from sklearn import svm 
HER 





X = [[34]. 


[33]. 


[32]. 


[31]. 


[30]. 


[30]. 


[25]. 


1] 
# 现 在 把 训练 数据 和 对 应 的 分 





# 这 里 使 用 





rbf 
clf = svm.SVC« 


kernel-'rbf'» 


.fit« 


# 预 测 年 龄 


3 上 的 人 的 质量 


p = [[30]] 





print clf.predict ( 


p 


ph 进 行 训练 


10.5.8 ”小 结 


SVM 解决 问题 的 方法 描述 起 来 大 概 有 以 下 几 步 。 
C1) 把 所 有 的 样本 和 其 对 应 的 分 类 标记 交 给 算法 进行 训练 。 
(2) 如 果 发 现 线性 可 分 ， 那 就 直接 找 出 超 平面 。 


(3) 如 果 发 现 线性 不 可 分 ， 那 就 映射 到 n+1 维 空间 ， 找 出 超 乎 面 。 





(4) 最 后 得 到 超 平 面 的 表达 式 ， 也 就 是 分 类 函数 。 


过 程 比较 简单 ， 只 是 实现 起 来 的 算法 确实 比较 复杂 。 





在 本 章 的 最 后 介绍 一 下 遗传 算法 (Genetic Algorithm) - 





与 其 说 遗传 算法 是 一 个 算法 ， 不 如 说 是 一 种 处 理 问题 的 思想 方式 更 
为 恰当 ， 因 为 遗传 算法 整个 体系 都 是 在 说 对 于 一 种 问题 处 理 的 思路 和 原 
则 ， 而 不 是 一 个 具体 的 代码 编写 过 程 。 





遗传 算法 是 一 类 借鉴 生物 界 的 进化 规律 〈 适 者 生存 ， 优 胜 劣 汰 遗传 
机 制 ) 演化 而 来 的 随机 化 搜索 方法 。 它 是 由 美国 的 J.Holland 教 授 于 1975 
年 首先 提出 的 ， 但 是 它 借鉴 的 是 进化 论 的 理论 依据 。 在 这 个 体系 里 ， 思 
维 方式 远 比 编写 代码 重要 ， 所 以 先 介 绍 一 下 著名 的 英国 生物 学 家 但 尔 斯 
罗伯特 :达尔 文 一 一 进化 论 的 葛 基 人 人 。 





进化 论 不 是 一 本 书 ， 而 是 一 个 有 关 物 种 发 源 与 发 展 的 逻辑 体系 。 达 
尔 文 在 1859 年 出 版 了 《物种 起 源 》， 由 此 开创 的 “ 物 竞 天 择 ， 适 者 生 
存 ” 的 进化 论 体系 被 科学 界 公认 为 19 世 纪 自 然 科学 的 三 大 发 现 之 一 ( 男 
外 两 个 是 细胞 学 说 和 能 量 守恒 与 转化 定律 )。 达 和 尔 文 于 1882 年 4 月 病 
逝 ， 为 了 表示 对 这 位 科学 家 的 时 敬 ， 大 家 把 他 安 匡 在 牛顿 基 的 劳 边 ， 位 
于 英国 伦敦 的 威 斯 敏 斯 特大 教堂 也 叫 西 敏 寺 )〉。 


10.6.1 进化 过 程 


在 物种 进化 中 的 例子 中 ， 最 开始 地 球 上 只 有 海洋 没有 陆地 ， 从 单 细 
胞 动物 到 鱼 不 知道 进化 了 多 少 代 。 这 里 以 从 陆地 出 现 以 后 ， 第 一 批 从 海 
AUG Ee AY 


估计 是 一 开始 有 一 群 鱼 ， 它 们 由 于 种 种 原因 跟 其 他 的 鱼 有 了 差别 ， 
如 胆 儿 比较 大 ， 有 一 个 能 直接 呼吸 空气 的 鳃 一 一 能 在 空气 里 还 能 存活 ， 
有 格外 强壮 的 鱼 一 一 能 跑 得 快 一 些 。 再 后 来 这 些 鱼 里 就 有 技能 更 强 的 ， 
一 些 在 陆 上 格外 倚重 的 器 官 如 果 变 异 强大 了 就 会 继续 文 持 它们 在 陆 上 生 
活 ， 如 粗壮 的 鳍 、 空 气 摄 入 能 力 更 强 的 肺 、 更 好 的 眼神 等 。 适 应 的 种 群 
才 会 在 相应 的 环境 里 生存 下 来 。 








根据 进化 论 的 观点 “ 物 况 天 择 ， 适 者 生存 ”， 生 物 目 己 是 会 进行 一 代 
一 代 变 化 的 。 这 个 变化 本 来 是 没有 什么 方 同 的 ， 生 物 自己 也 控制 不 了 。 
变化 由 什么 而 来 ? 第 一 ， 父 母 的 基因 进行 交换 重组 ， 第 二 ， 基 因 突 变 。 








一 代 一 代 在 整个 种 群 的 不 同 个 体 里 有 无 数 次 重组 的 机 会 ， 也 有 一 定 
的 基因 突变 的 机 会 ， 导 致 了 在 干 代 以 后 ， 同 一 个 种 群 之 间 的 样 态 可 能 会 
非常 不 一 样 。 例 如 ， 人 有 23 对 染色 体 ， 每 一 代 的 重组 和 突变 使 得 人 的 多 
样 性 特点 非常 明显 。 现 在 人 的 长 相 彼 此 有 很 大 差别 ， 以 及 体态 、 性 格 、 
思维 方式 、 奖 病 抵御 .…... 这 些 方面 也 都 是 千差万别 。 


JUR EAR EAA FUR AI ICE 1 4 TE 20 a BE PETER 
造成 全 世界 超过 7000 万 人 死亡 : 17 世纪 在 欧洲 肆虐 的 天 花 病 毒 也 杀 死 超 
过 4000 万 的 欧洲 人 。14 世 纪 得 了 黑 死 病 《〈 是 一 种 鼠疫 杆 博 ) SEAN UE BC 
救 ， 防 治 天 花 的 牛痘 疫苗 也 是 到 了 18 世 纪 才 研发 出 来 ， 能 够 存活 下 来 的 
人 和 群 其 实 也 并 没有 接受 像样 治疗 ， 科 学 家 分 析 基 本 只 能 解释 为 基因 层面 
对 抗 的 胜利 一 一 这 些 存 活 的 人 的 基因 比 那 些 患 病死 去 的 人 有 着 对 抗 这 种 
疾病 更 强 有 力 的 成 分 。 




















不 论 是 由 于 基因 目 身 发 生 的 突变 ， 还 是 由 于 组 合 产生 的 新 特性 ， 这 
些 都 是 不 确定 性 的 变化 。 而 客观 世界 上 有 很 多 变化 对 人 类 种 群 做 出 这 种 
选择 的 裁 筋 ， 出 现 疾病 就 是 裁 勇 那些 对 疾病 耐 受 力 弱 的 人 ， 出 现 饥 殉 惑 
是 裁剪 那些 对 饥饿 耐 受 力 弱 的 人 ， 出 现 严寒 就 是 裁剪 那些 对 严寒 耐 受 力 
弱 的 人 。 这 种 “进化 ?可 以 说 谈 不 到 “进化 ”， 而 是 被 动 地 演化 而 后 被 动 地 
被 选择 。 











10.6.2 ”算法 过 程 


在 了 解 了 进化 基因 层面 的 过 程 后 ， 是 要 落实 到 算法 过 程 上 去 的 。 那 
么 怎么 来 构建 这 个 算法 过 程 呢 ? 关键 步骤 如 下 。 











(1) 基因 编码 。 在 这 个 过 程 中 ， 等 试 者 对 一 些 个 体 的 基因 做 一 个 
描述 ， 构 造 这 些 基因 的 结构 ， 有 点 像 确定 函数 自 变 量 的 过 程 。 

(2) 设计 初始 群体 。 在 这 个 环节 ， 需 要 造 一 个 种 群 出 来 ， 这 些 种 
群 有 很 多 生物 个 体 但 是 基因 都 不 相同 。 





(3) 适应 度 计 算 〈 甬 校 ) 。 在 这 个 环节 ， 要 造 一 些 “< 上 各 的 勇 
刀 ? 对 那些 不 太 适 应 的 个 体 进 行 裁 甬 ， 不 让 他 们 产生 后 代 。 和 最 终 遂 选 
规则 差异 大 的 个 体 衣 定 不 适合 作为 备 选 对 象 ， 该 减 把 一 定 要 减 摊 ， 售 则 
它 产生 的 后 代 只 会 让 计算 量 更 大 而 距离 痪 近 目 标 没 有 增益 。 








(4) 产生 下 一 代 。 产 生 下 一 代 这 个 部 分 有 3 种 办 法 : 直接 选择 ， 基 
KAEH, EARE. 


而 后 再 回 到 步骤 3 进行 循环 ， 适 应 度 计算 ， 产 生 下 一 代 ， 这 样 一 代 
一 代 找 下 去 ， 直 到 找到 最 优 解 为 止 。 


遗传 算法 在 解决 很 多 领域 的 问题 时 都 体现 出 很 好 的 特性 ， 如 TSP 问 


jl (Traveling Salesman Problem， 即 旅行 商 问 题 ， 也 叫 货 即 担 问 题 ) 、 
九宫 问题 〈 八 数码 问题 ) 、 生 产 调度 问题 (Job Shop Scheduling) . $3 
包 问 题 (Knapsack Problem， 即 NP 问 题 ) 等 。 


下 面 介绍 一 个 具体 的 解 题 实例 。 


10.6.3 E8 


背包 问题 是 一 种 组 合 优 化 的 NP〈 即 多 项 式 复杂 程度 的 非 确 定性 问 
题 ) 完全 问题 ， 这 类 NP 问题 的 特点 很 明显 ， 即 “生成 问题 的 一 个 解 通 常 


比 验 证 一 个 给 定 的 解 需 要 花费 更 多 的 时 间 ”。 
先 来 看 一 个 例子 。 


第 一 个 例子 是 合 数 分 解 质 因数 问题 ， 如 果 现 在 有 一 个 命题 ， 分 解 合 
数 698975355227 为 几 个 质数 相 乘 的 结果 。 那 么 怎么 算 ? 只 能 把 质数 从 2 
穷 举 到 V698 975 355 227 ，2 个 质数 一 起 、3 个 质数 一 起 、4 个 质数 一 
起 ..….... 尝 试 着 做 各 种 组 合 相 乘 看 是 否 等 于 这 个 结果 ， 这 是 一 个 非常 耗 时 
的 工作 ， 即 便 用 计算 机 ， 这 个 过 程 也 非常 耗 时 。 但 是 如 果 反 过 来 说 ， 
698975355227 是 否 是 809、887、977、997 这 4 个 素数 的 乘积 ， 那 么 验证 
起 来 会 非常 快 ， 只 要 用 一 个 普通 的 计算 器 ， 用 不 了 多 长 时 间 就 能 验算 出 
来 。 这 就 是 所 谓 的 “生成 问题 的 一 个 解 通常 比 验 证 一 个 给 定 的 解 需要 花 
费 更 多 的 时 间 ”。 

背包 问题 的 大 意 是 ， 有 N 件 物品 和 一 个 容量 为 V 的 背包 ， 第 i 件 物品 


的 重量 是 w[i， 价 值 是 v[i， 求 解 将 哪些 物品 装 入 背包 可 使 这 些 物品 的 重 
量 总 和 不 超过 背包 容量 ， 且 价值 总 和 最 大 。 








XPP e] pea ah ze PLA INP [a] ek, SUE T A5 ASH PE to — 2809-22 


我 们 来 具体 看 一 些 数 字 可 能 会 更 直观 一 些 。 


假设 有 一 个 背包 ， 可 以 放置 80 公 斤 的 物品 。 此 外 ， 还 有 如 表 10-14 
所 示 的 6 件 物品 。 


表 10-14 ”6 件 物品 





怎么 放置 才能 让 背包 里 的 物品 价值 总 和 尽 可 能 多 呢 ? 


有 几 种 思路 ， 第 一 种 就 是 穷 举 法 。 每 种 物品 只 有 存在 “1〉 和 不 存 
E COO 两 种 状态 ， 那 么 一 共 可 能 产生 的 方案 最 多 是 26 个 也 就 是 64 个 。 
把 每 种 组 合 具体 的 重量 和 价值 都 算出 来 ， 超 过 80 公 斤 的 方案 束 直 接合 
去 ， 少 于 80 公 斤 的 束 留 下 并 且 记 下 货品 总 价值 ， 到 最 后 比较 每 种 方 有 的 
忆 价 值 大 小 即 可 。 








但 是 如 果 有 128 种 物品 这 个 方案 还 可 行 吗 ? 如果 穷 举 大 约 有 3.4x1033 
种 方案 ， 如 果 计 算 机 一 秒 能 够 验证 一 亿 种 情况 ， 大 概 需 要 1.08x10 年 
才能 算出 来 ， 这 是 不 可 行 的 。 


这 种 情况 下 ， 遗 传 算法 就 显示 出 优势 来 了 。 下 面 介绍 在 6 个 物品 的 
情况 下 的 求解 方法 。 


1. 基 因 编 码 


一 共 6 种 物品 ， 每 种 物品 的 有 无 都 可 以 作为 独立 的 一 个 基因 片段 ， 
如 表 10-15 所 示 。 


表 10-15 ”基因 片段 





染色 体 





1 1 1 1 1 1 111111 


一 共 是 6 位 。 假 如 只 有 物品 2、 物 品 3 和 物品 6， 则 染色 体 是 011001 。 


2. 设 计 初 始 群体 


为 了 计算 方便 设置 初始 群体 为 4 个 初始 生物 个 体 ， 随 机 产生 。 


100100， 对 应 物品 1、 物 品 4 存 在 。 


101010， 对 应 物品 1、 物 品 3、 物 品 5 存 在 。 


010101， 对 应 物品 2、 物 品 4、 物 品 6 存在 。 


101011， 对 应 物品 1、 物 品 3、 物 品 5、 物 品 6 存在 。 


3. 适 应 度 计 算 


适应 度 计算 首先 要 用 一 个 适应 度 的 函数 来 做 标 矿 。 


设计 适应 度 的 函数 为 物品 总 价值 ， 那 么 4 个 个 体 各 目 适 应 度 结果 如 





基因 100100=15+45=60。 


基因 101010=15+35+55=105。 


基因 010101=25+45+70=140。 


基因 101011=15+35+55+70=175。 





在 这 里 不 要 坏 记 物品 本 吴 还 有 重量 ， 所 以 重量 也 要 作为 判断 标准 之 
各 目的 重量 分 别 如 下 。 


基因 100100=10+25=35。 


基因 101010=10+20+30=60。 


基因 010101=15+25+35=75。 


基因 101011=10+20+30+35=95。 


基因 101011 的 重量 显然 已 经 超过 了 要 求 的 80 公 斤 而 直接 被 淘汰 。 


这 样 还 剩 下 : 


基因 100100， 适 应 函数 为 60。 


基因 101010， 适 应 函数 为 105。 


基因 010101， 适 应 函数 为 140。 


先 把 适应 函数 求 和 ，60+105+140=305。 下 面 进 行 一 个 用 类 似 轮 盘 赌 
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轮 盘 赌 是 一 种 赌博 游戏 ， 如 图 10-23 所 示 ， 整 个 游戏 道具 是 一 个 大 
木 盘 ， 可 以 进行 旋转 。 木 盘 上 刻 着 很 多 小 格子 ， 每 个 小 格子 上 有 数字 ， 
在 轮 盘 开始 旋转 之 后 ， 放 入 一 个 小 球 沿 盘面 滚动 与 轮 盘 旋转 方向 相反 。 
待 轮 盘 静止 后 ， 小 球 挤 入 的 各 目 所 对 应 的 标号 即 为 获胜 号 码 。 从 古典 概 
型 来 看 ， 每 个 格子 的 胜率 应 该 是 一 样 的 。 








现在 想象 一 下 ， 这 个 轮 盘 上 有 305 个 格子 ， 其 中 基因 100100 作 为 一 
个 玩家 选取 了 其 中 的 60 个 小 格子 ， 基 因 101010 作 为 一 个 玩家 选用 了 105 
个 小 格子 ， 基 因 010101 作 为 一 个 玩家 选择 了 140 个 小 格子 ， 分 别 作为 自 
己 押 注 的 赌 点 。 

转动 4 次 一 一 这 个 推荐 为 每 一 代 个 体 的 数量 。 那 么 每 旋转 一 次 ,， “中 
奖 ” 的 这 个 基因 组 就 允许 繁殖 一 次 ， 如 果 一 次 都 没 “ 中 奖 ” 那 么 这 个 基因 
将 无 法 得 到 延续 。 在 这 个 例子 里 ， 基 因 100100 每 次 被 北 选 的 概率 为 
60/305， 基 因 101010 每 次 被 北 选 的 概率 为 105/305， 基 因 010101 每 次 被 北 
选 的 概率 为 140/305。 


这 里 计算 的 结果 为 ， 基 因 101010 和 基因 010101 各 繁殖 两 次 


4. 生 产 下 一 代 





基因 101010 和 基因 010101 在 成 功 被 注 选 后 ， 需 要 进行 基因 重组 来 产 
生 下 一 代 。 计 算 过 程 如 表 10-16 所 示 。 


表 10-16 ”计算 过 程 








个 体 染色 体 | 配对 | 交叉 点 位 置 | 交叉 结果 个 体 染色 体 | 配对 | 交叉 点 位 置 | 交叉 结果 
1 101010 3 101101 3 101010 4 101001 
1-2 3-4 


两 个 被 六 选 后 的 基因 进行 了 基因 重组 ， 其 中 一 对 从 第 三 位 后 面 断 
开 ， 尾 部 进行 了 交换 ， 允 一 对 从 第 四 位 后 面 断 开 ， 尾 部 进行 了 交换 。 这 
样 又 产生 了 4 个 不 同 的 基因 。 一 般 来 说 交叉 点 位 置 是 可 以 随机 选取 的 。 
如 图 10-24 趾 所 示 ， 两 段 不 同 的 基因 从 中 间断 开 后 进行 结合 ， 上 上 段 的 前 
半 部 和 下 上 段 的 后 半 部 结合 成 为 新 的 基因 ， 而 下 段 的 前 半 部 和 上 上 段 的 后 半 
部 结合 成 为 新 的 基因 。 























图 10-24 ”基因 重组 





在 基因 重组 之 后 是 可 以 有 一 个 基因 突变 的 过 程 的 ， 就 是 随机 把 一 定 


比例 的 基因 里 的 某 一 位 或 者 茶几 位 做 变化 一 一 1 变 成 0，0 变 成 1。 这 个 过 
程 建议 还 是 取 法 一 般 的 生物 或 殖 过 程 ， 让 变异 的 基因 比率 低 一 些 比 较 
好 ， 在 这 个 例子 里 没有 做 变 寞 。 
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下 面 就 是 一 代 一 代用 这 种 准则 做 下 去 了， 直接 求 重量 和 价值 。 


基因 101101， 重 量 为 90， 价 值 〈 适 应 函数 ) 为 165， 直 接 淘汰 。 


基因 010010， 重 量 为 45， 价 值 〈 适 应 函数 ) 为 80。 


基因 101001， 重 量 为 66， 价 值 〈 适 应 函数 ) 为 120。 


基因 010110， 重 量 为 70， 价 值 〈 适 应 函数 ) 为 125。 


在 这 里 可 以 看 到 一 个 现象 ， 总 体 的 适应 函数 和 为 80+120+125=325， 
比 上 一 代 的 60+105+140=305 适 应 性 更 好 ， 貌 似 是 进化 了 ， 但 是 上 一 代 是 
有 一 个 适应 函数 140 的 “ 超 强 基因 个 体 * 的 ， 这 一 代 却 没有 一 个 能 够 超 
越 。 





在 一 次 完整 的 计算 中 ， 迭 代 过 程 可 能 会 经 历 几 十 代 甚 至 更 人 人， 如 采 
发 现 出 现 了 连续 几 代 适 应 函数 基本 不 增加 或 者 甚至 反而 减少 的 情况 ， 那 
就 说 明 函 数 已 经 收敛 了 。 





“收敛 ”这 个 词 如 果 没 有 在 算法 学 习 中 接触 过 ， 这 里 以 一 个 形象 的 例 


子 来 说 明 ， 在 体重 秤 上 称 量 时 ， 当 人 站 上 去 时 ， 指 针 就 开始 抖动 ， 拌 动 
幅度 越 来 越 小 ， 最 后 基本 稳定 在 一 个 值 。 稳 定 后 ， 读 取 这 个 数字 即 可 。 
假设 体重 秤 称 量 是 有 算法 控制 的 ， 那 么 这 个 摆动 儿 下 很 快 就 能 稳定 在 一 
个 值 的 就 是 收敛 性 比较 快 (比较 好 )〉 的 算法 ， 要 摆动 很 久 才 能 稳定 的 就 
是 收敛 性 比较 慢 〈 比 较 差 的 算法 ;如果 摆 幅 随 着 时 间 的 推移 反而 越 来 
越 大 ， 那 收敛 性 残 非常 不 好 ， 通 常 束 没 有 解 。 








在 上 述 例子 中 ， 可 以 就 此 结束 迭代 操作 ， 也 可 以 再 观 穴 一 代 到 两 代 
的 变化 。 收 敛 的 速度 会 因 很 多 因素 而 变化 ， 如 基因 位 的 长 度 、 基 因 重 组 
时 的 方案 、 基 因 变 异 的 程度 、 每 一 代 产 生 个 体 的 数量 等 。 一 般 发 生 适 应 
图 数 收敛 时 就 是 运 代 结束 时 。 而 在 迭代 结束 前 找到 的 最 优 的 解 束 是 要 的 


解 。 








6. 注 意 事项 


在 使 用 遗传 算法 的 时 候 请 注意 以 下 几 个 地 方 ， 这 几 个 地 方 是 可 以 进 


行 调 整 的 。 


C1) 初始 群体 。 初 始 群体 的 数量 是 可 以 调整 的 ， 可 以 想象 ， 上 述 6 
个 物品 的 背包 问题 的 极限 是 直接 生成 所 有 的 情况 ，29 也 就 是 64 个 个 体 全 
部 列 出 作为 初始 群体 。 但 是 这 有 坚 无 意义 ， 也 不 古 要 使 用 基因 算法 的 目 
的 。 或 许可 以 考虑 初始 群体 的 数量 设置 为 N 个 ，N 为 当前 计算 机 最 大 可 
并 行 计算 的 数量 ， 例 如 ， 是 8 核心 的 计算 机 ， 那 就 可 以 设置 为 8 个 个 体 作 











为 初始 群体 。 在 每 次 产生 基因 后 把 不 同 的 计算 放 到 不 同 的 线程 中 去 。 当 
然 ， 这 也 要 视 并 行 对 算法 效率 的 改善 程度 而 定 。 此 外 ， 可 以 定性 考 不 ， 
初始 数量 太 少 可 能 会 叶 致 在 癌 量 空间 中 用 盖 面积 过 小 而 导致 收敛 到 了 非 
最 优 解 就 终止 了 算法 。 











(2) 适应 度 函数 。 适 应 度 函 数 中 的 轮 盘 赌 算 法 只 是 其 中 一 种 算 
法 ， 也 可 以 考虑 使 用 其 他 算法 进行 六 选 。 注 意 遂 选 原则 是 从 生物 多 样 化 
中 进行 挑选 。 所 以 淘汰 比较 弱 的 基因 是 可 以 的 ， 但 是 不 建议 淘汰 的 比例 
太 大 。 





(3) 基因 重组 。 基 因 重 组 这 个 坏 市 是 变数 比较 大 的 。 断 开 的 位 置 
几乎 是 可 以 随意 进行 的 ， 如 上 述 例子 ， 一 个 6 位 长 度 的 基因 ，1-5 断 开 ， 
2-4 疡 开 ，3-3 断 开 ，4-2 断 开 ，5-1 呆 开 ， 都 是 可 选 的 方案 。 其 实在 一 次 
产生 后 代 的 过 程 中 是 可 以 允许 以 不 同 的 方案 产生 多 个 后 代 的 ， 如 两 个 配 
对 的 基因 古 可 以 用 2-4 方 案 做 两 个 后 代 ， 同 时 再 用 4-2 方 案 做 两 个 后 代 
的 ， 产 生 4 个 后 代 是 可 以 的 。 这 样 会 帝 来 更 大 的 基因 丰富 性 ， 但 是 同时 
也 要 注意 计算 量 如 果 帮 生 增 长 ， 在 硅 干 代 以 后 恐怕 会 严重 影响 计算 性 


ou 
HE o 

















另外 相信 读者 也 能 意识 到 ， 不 要 一 个 基因 目 身 和 目 身 去 做 重组 ， 没 
意义 ， 因 为 怎么 重组 还 是 目 己 ， 没 有 任何 变化 。 





(4) 友 代 结束 。 这 个 算法 和 欠 代 结束 的 判断 标准 因 人 而 异 ， 但 是 总 


体 的 原则 是 ， 如 果 连 续 观 察 几 代 都 没有 明显 的 适应 函数 的 增长 ， 那 就 说 
明 进 化 到 这 几 代 基 本 “到 头 ” 了 。 在 结束 欠 代 时 ， 在 这 之 前 找到 的 最 优 解 
就 是 能 找到 的 最 优 解 。 


对 于 背包 问题 的 解 ， 在 这 里 也 同样 给 出 一 段 Python 代码 供 读者 参 
考 : 





# coding=utf-8 
import random 
# 背 包 问 题 


# 物品 重量 价格 


[25. 


[35. 


70]3 
# 终 止 界限 


FINISHED_LIMIT = 5 
# 重 量 界 限 


WEIGHT LIMIT = 80 
# 染 色 体 长 度 





CHROMOSOME_SIZE = 6 
THREE UC 


SELECT NUMBER = 4 
max last = 0 
diff last - 10000 
Tusce. AIDE 


def is finished: 


fitnesses»: 


global max last 
global diff last 
max current = 0 


for v in fitnesses: 


if v[1] > max current. 


max current - v[1] 
diff - max current - max last 
if diff < FINISHED LIMIT and diff last < FINISHED LIMIT. 


return True 
else. 


diff last - diff 
max last - max current 
return False 

# 初 始 染色 体 样 态 


def inito: 


chromosome statei1 = '100100' 
chromosome state2 - '101010' 
chromosome state3 = '010101' 
chromosome state4 '101011' 
chromosome states [chromosome state1 


chromosome state2. 


chromosome state3. 


chromosome state4] 
return chromosome states 
# 计 算 适 应 度 


def fitness: 


chromosome states»: 


fitnesses - [] 
for chromosome state in chromosome states: 


value sum = 0 
weight sum = 0 
for i. 


v in enumerate ( 


chromosome state». 


if int 


V) 


weight sum += X[i + 1][0] 
value sum += X[i + 1][1] 
fitnesses.append: 


[value sum. 


weight sum]» 


return fitnesses 
THE 


def filter: 


chromosome states. 


fitnesses». 


80 的 被 淘汰 


index = len« 


fitnesses» 


- 1 
while index »- 80. 


index -- 1 
if fitnesses[index][1] > WEIGHT LIMIT: 


chromosome states.pop: 


index» 


fitnesses.pop: 


index» 


selected index = [0] * len: 


chromosome states» 


for i in range ( 


SELECT. NUMBER) : 


j = chromosome states.index: 


random.choice < 


chromosome states»» 


selected index[j] += 1 
return selected index 
# 产 生 下 一 代 





def crossover < 


chromosome states 


selected inde». 


chromosome states new - [] 
index - len« 


chromosome states» 


- 1 
while index >= 80. 
index -- 1 
chromosome state = chromosome states.pop: 


index) 


for i in range ( 


selected_index[index]) : 


chromosome state x = random.choice < 


chromosome_states) 


pos = random.choice < 


range ( 


CHROMOSOME SIZE - 1) ) 


chromosome states new.append: 


chromosome state[ 


pos] + chromosome state x[pos: 


p 


chromosome states.insert: 


index. 


chromosome state» 


return chromosome states new 
if name == ' main  ': 





# 初 始 群体 


chromosome states = init Oo 


n = 100 
while n > 0: 


fitnesses = fitness: 


chromosome states» 


if is finished: 


fitnesses) : 


selected index = filter: 


chromosome states, 


fitnesses» 





# 产 生 下 一 代 


chromosome states = crossover: 


chromosome states. 


selected index» 


35]. 


[105. 


60]. 


[140. 


75]. 


[175. 


95]] 
# 2. 


[[60. 


35]. 


[105. 


60]. 
[80. 
45]. 
[90. 
50]] 
8. 

[[95. 
55]. 
[115. 
65]. 
[70. 
40]. 
[90. 


50] ] 
# 4: 


[[70. 
40]. 
[70. 
40]. 
[150. 
85]. 


[115. 


65]] 
# 5: 


[[115. 
65]. 
[115. 
65]. 
[115. 
65]. 
[70. 


40]] 
# ['100110'. 


'100110', 
'100110', 


'100110'] 
AA 人 A 人 A 人 AAA 人 A 人 A 


求 出 的 [115，65] 就 是 要 求 的 解 ， 对 应 的 物品 是 1: [10, 15], 4: [25, 45]. 5: [30, 55]. 
































的 收敛 条 件 是 连续 两 代 的 适应 函数 最 大 值 都 不 再 增加 ， 出 现 这 种 情况 则 判断 为 收敛 。 
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图 片 来 源 于 百度 图 库 。 

















10.6.4 IKIE In] 


在 遗传 算法 中 再 举 一 个 求 极 大 值 的 例子 。 这 种 例子 也 是 比较 多 见 
的 ， 只 要 把 一 些 数据 关系 描述 成 函数 之 后 就 会 有 一 些 求 极 大 值 或 者 极 小 
值 的 问题 。 


其 实 极 大 值 和 极 小 值 是 一 类 问题 ， 即 极 值 问 题 ， 解 题 思路 也 是 一 样 
的 。 


假设 在 空间 里 有 一 个 函数 z=y sin (x) *x cos (y) ， 图 形 如 图 10-25 
所 示 。 










x [=10.000 10.0000 





图 10-25 z=y sin (x) +x cos Cy) 的 图 形 


假设 这 是 一 个 地 区 中 的 地 形 图 ， 而 且 地 形 每 个 点 的 (x，y，z) 三 
维 坐 标 是 可 以 用 z=y sin (x) +x cos (y) 这 个 函数 来 进行 描述 的 ， 如 果 
想 求 这 个 函数 在 x 位 于 [-10，10] 和 y 位 于 [10，10] 之 间 的 最 大 值 ， 怎 么 求 
呢 ? 


可 以 使 用 微 积分 ， 把 z 对 y 求 偏 导数 ， 把 z 对 x 求 偏 导数 ， 这 样 能 够 求 
出 满足 两 个 偏 导 数 同时 为 零 的 x、y 的 解 ， 很 可 能 有 多 个 ， 把 所 有 的 x、y 
对 代入 z=y sin GO +x cos GO ， 求 出 的 (x，y，z) 就 是 驻 点 。 每 个 驻 
点 的 z 值 比较 大 小 ， 最 大 的 就 是 要 求 的 解 了 。 没 学 过 微 积分 的 朋友 也 先 
别 着 急 ， 我 们 今天 介绍 的 不 是 这 种 微 积分 领域 常用 的 办 法 ， 还 是 考虑 用 
遗传 算法 的 思路 来 做 。 








可 以 想象 ， 在 这 个 地 区 无 规律 地 放置 很 多 人 ， 有 的 在 谷 感 ， 有 的 在 
半山 腰 ， 有 的 可 能 已 经 在 山顶 或 者 山顶 附近 。 那 么 下 面 让 他 们 一 代 一 代 
生生 不 妃 地 繁殖 ， 凡 是 能 疏 得 更 高 的 束 留 下 。 有 了 这 个 思路 就 可 以 按 部 
就 班 地 求解 。 





1. 基 因 编 码 


首先 这 里 的 基因 编码 问题 就 和 背包 问题 不 一 样 。 背 包 问 题 属于 离散 
型 的 目 变 量 ， 一 个 物品 在 背包 里 要 么 有 要 么 没有 ， 即 便 是 128 个 物品 ， 
也 知道 一 共 是 有 2 种 情况 ， 基 因 编 码 最 多 用 128bit 也 就 够 了 。 











但 是 这 个 例子 中 ， 有 两 个 自 变 量 x 和 y， 这 两 个 自 变量 都 是 实数 。 根 
据 实 数 稠密 性 原理 ， 在 [-10，10] 之 间 是 有 无 穷 多 个 实数 ， 没 有 办 法 用 类 
似 背 包 问 题 中 的 基因 编码 的 办 法 穷 举 所 有 的 实数 可 能 性 。 





但 是 ， 电 子 计算 机 在 做 所 有 实数 运算 时 其 实 是 没有 那么 精确 的 ， 因 
为 本 身 用 电子 计算 机 来 计算 实数 束 是 一 个 用 离散 解决 连续 ， 用 有 穷 解 决 





ER RTR, ARAWAZA A Ba Je E TE. ME Hleabitie zi A 
128bit 描 述 一 个 实数 都 太 有 限 了 ， 所 以 需要 一 个 精度 限制 ， 也 就 是 有 效 


数字 。 问 题 是 应 该 取 多 少 位 有 效 数 字 ? 








理想 地 ， 对 于 有 效 数 字 应 该 是 尽 可 能 多 取 ， 有 多 少 取 多 少 ， 但 是 在 
实际 生活 中 却 不 这 么 做 。 原 因 也 很 简单 ， 多 取 有 效 数 字 本 来 是 为 了 提高 
精确 度 ， 降 低 误差 与 成 本 。 然 而 多 取 有 效 数 字 同 样 需要 更 多 的 成 本 ， 而 
多 出 的 有 效 数 字 的 增长 对 提高 收益 如 果 没 有 明显 的 好 处 ， 那 显然 取 太 多 
有 效 数 字 反 而 是 不 划算 的 。 





例如 ， 在 平时 购物 时 取 到 元 小 数 点 后 2 位 就 够 了 了， 因为 再 小 的 货 
单位 也 不 发 行 ， 再 往 后 标记 更 小 的 标价 单位 毫 无 意义 。 一 些 大宗 交 易 的 
物品 单价 通常 会 取得 比较 多 ， 如 小 米 手 机 、iPhone 手 机 中 的 电子 元 件 ， 
很 多 出 广 单价 才 0.005 元 一 个 甚至 更 低 。 但 是 由 于 购买 量 巨大 ， 一 批 就 
是 以 二 万 个 原件 作为 单位 的 购买 量 ，1000 万 个 电子 元 件 就 是 50000 元 人 
民 币 了 ， 这 种 情况 下 取 4 位 小 数 就 有 意义 。 再 如 生产 CPU 用 的 高 纯 硅 通 
常 是 99.999999999% 的 ， 纯 度 低 了 无 法 文 持 22nm 级 别 的 生产 工艺 。 太 阳 
能 板 硅 板 就 不 需要 这 么 精细 了 ， 一 般 99.99% 就 能 满足 ， 如 果 超 过 


99.9999% 只 会 增加 成 本 。 








所 以 对 于 那些 无 法 感知 精确 的 ， 感 知 了 也 无 法 把 控 的 ， 把 控 了 也 对 
提高 效益 无 意义 的 ， 这 些 场 合 下 的 精度 提升 就 没 必 要 了 ， 在 生产 生活 中 
可 酌情 进行 取舍 。 
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经 能 够 满足 模型 的 需求 了 。 


假设 从 -10 到 10 之 间 指 的 是 一 个 20 公 里 的 地 带 ， 那 么 取 精 度 为 1 米 可 
以 理解 为 [-10.000，10.000] 这 个 区 间 范 围 ， 取 精度 0.1 米 就 可 以 理解 为 
[-10.0000，10.0000] 的 范围 ， 这 里 假设 1 米 的 精度 已 经 能 够 满足 误差 要 
求 ， 那 么 取 [-10.000，10.000] 作 为 取 值 范围 ， 这 样 无 限 就 变 成 有 限 了 ， 
这 里 实际 是 20001 种 取 值 。 





如 果 还 是 要 用 二 进 制 来 进行 基因 编码 应 该 选用 多 少 位 呢 ?”2 是 
16384, 215 是 32768， 因 为 这 里 有 20001 种 情形 ， 所 以 取 15bit 作 为 基因 描 
述 ，x 和 y 都 用 15bit 的 基因 一 一 这 已 经 能 够 覆盖 所 有 的 设想 样本 。 





那么 下 一 个 问题 就 是 把 一 个 15bit 的 二 进 制 数字 映射 到 [-10.000， 
10.000] 这 个 区 间 里 去 。 用 第 一 位 作为 正 负数 的 标识 ， 剩 下 14bit 作 为 具体 
数字 的 标识 ， 这 样 这 个 15bit 的 数字 就 成 为 了 [-16383，0] 和 [0，16383] 两 
个 区 间 取 并 集 了 ， 注 意 集合 里 的 元 素 都 是 整数 。 再 把 每 个 数字 除 以 
16383 除 以 1000， 取 值 范围 就 被 压缩 在 [-10.000，10.000] 之 间 了 。 





注意 在 这 里 为 了 让 区 间 包 括 两 边 的 边界 点 ， 做 一 个 小 小 的 变换 。 








XEXF GO 的 内 容 如 下 : x 是 目 变量 ， 为 二 进 制 数字 ， 首 位 为 0 代表 
正 数 ， 首 位 为 1 代表 负数 ， 函 数值 为 x 对 应 的 十 进 制 数字 。 那 么 就 完成 了 
编码 到 整个 定义 区 间 上 的 映射 F (x) ， 最 后 表示 二 进 制 到 实数 值 的 函数 
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: F(x)>0 

H(x)= 16 384 
1o. 9 1 F(x)<0 

16 384 


但 是 这 里 有 两 个 问题 。 


il: F (x) >0 和 F GO O2AHAMAN, F (x) =0 究 竟 算 谁 
的 。 补 充 说 明 一 下 ， 这 个 写法 确实 是 不 够 严谨 ， 有 具体 意义 是 指 x 的 首位 
是 0 还 是 1 的 情况 ， 是 0 那 就 算 F (x) >0， 是 1 那 就 算 F (x) <0， 因 为 确 
实 后 面 14bit 都 是 0 的 情况 下 ， 不 管 首位 是 0 还 是 1 代表 值 都 是 0。 














F(x)+1 


16384 JH." 163 im 分 别 构成 了 x 正 负 两 个 ， 但 是 区 间 却 
不 是 原来 说 的 [-10.000，10.000]， 变 成 了 [-10.000，0) # CO, 10.000], 
0 从 自 变量 范围 里 被 使 掉 了 。 这 是 为 了 计算 方便 ， 但 是 由 于 确信 0 不 是 要 
的 解 ， 不 管 是 x=0 还 是 y=0， 所 以 从 解 里 面 把 所 有 x=0 的 情况 以 及 所 有 
y=0 的 情况 都 去 除了 ， 这 个 变换 不 影响 最 终 求 解 。 如 果 觉 得 不 放心 ， 那 
么 可 以 尝试 重新 构造 这 个 映射 关系 ， 把 [-10.000，10.000] 所 有 的 点 都 履 
iif. 


10. 





问题 2: 








最 后 计算 映射 关系 的 具体 值 : 


F(x)+1 








(000000100100100), = 292， 对 应 的 10. = 0.179 
16384 
F(x)-1 
(111000100110110), = -12 598， 对 应 的 10: -I L 7.690 
16384 


怎么 样 ， 容 易 吧 ， 用 现在 流行 的 词 儿 来 说 那 就 是 一 一 完美”。 


2. 设 计 初 始 群体 


设计 初始 群体 是 第 二 个 要 解决 的 大 问题 。 


倾斜 一 下 看 这 个 小 世界 ， 如 图 10-26 所 示 ， 要 设置 一 些 初始 化 的 人 
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了 。 在 刚刚 设计 的 基因 里 其 实 有 两 条 基因 ， 一 条 是 x， 一 条 是 y， 这 两 条 





基因 各 有 15 个 基因 信息 点 ， 也 就 是 21 个 可 能 值 ， 随 机 产生 8 组 基因 ， 如 
表 10-17 所 示 。 


3. 适 应 度 计 算 


适应 度 在 这 个 场景 里 不 难 设 计 ， 用 z=ysin GO +xcos Cy) 即 可 ，z 


4 产生 下 一 代 





在 这 个 场景 里 ， 在 每 一 代 都 可 以 让 1 个 染色 体 中 的 基因 X 之 间 和 基 
因 Y 之 间 进 行 组 合 ， 如 表 10-18 所 示 。 








染色 体 


图 10-26 z=y.sin (x) +x.cos Cy) 的 图 形 
表 10-17 8 组 基因 


000000100101001 101010101010101 100000100100101 


011000100101100 | 001100110011001 | 6 | 101000100100100 
001000100100101 101010101010101 101010100110100 
000110100100100 110011001100110 | s | 100110101101000 





BAY 
101010101010101 
111100001111000 
101010101010101 
000011110000111 


3610-18 ”基因 组 合 


染色 体 基因 X 基因 站 组 合 后 代 基 因 





XA: 000000100101100 





1 000000100101001 101010101010101 1X4+2X 
YA: 101010110011001 





XB: 011000100101001 





011000100101100 001100110011001 1Y+2Y 














YB: 001100101010101 


如 果 染 色 体 1 和 2 进行 结合 ， 那 么 : 





1 染色 体 的 X 基 因 的 前 7 位 和 2 染色 体 的 X 基 因 的 后 8 位 将 结合 。 


1 染色 体 的 Y 基 因 的 前 7 位 和 2 染色 体 的 Y 基 因 的 后 8 位 将 结合 。 





2 染色 体 的 xX 基因 的 前 7 位 和 1 染色 体 的 X 基 因 的 后 8 位 将 结合 。 





2 染色 体 的 Y 基 因 的 前 7 位 和 1 染色 体 的 Y 基 因 的 后 8 位 将 结合 。 





由 此 形成 XA、YA、XB、YB 4 个 后 代 基 因 ，XA 和 YA 将 成 为 新 的 
一 组 染色 体 ，XB 和 YB 将 成 为 新 的 一 组 染色 体 ， 形 成 两 个 完整 的 后 代 基 
因 染 色 体 组 。 


如 果 是 8 组 作为 初始 种 群 的 大 小 ， 就 有 Cs =28 种 组 合 方式 ， 而 每 一 
种 组 合 产生 2 个 后 代 ， 那 么 实际 上 第 一 代 以 后 就 产生 56 个 个 体 。 





这 56 个 个 体 的 适应 度 可 以 进行 排序 ， 只 取出 排名 前 8 的 个 体 。 





这 里 同样 可 以 允许 一 定 的 基因 突变 性 ， 在 8 个 已 遂 选 的 个 体 中 ， 随 
机 找到 两 个 个 体 ， 让 这 两 个 个 体 其 中 一 个 x 染色 体 发 生变 异 而 让 为 一 个 y 
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的 性 染色 体 同 名 〉。 变 异 也 是 随机 改变 x 染色 体 中 的 茶 一 位 ， 或 随机 改 
变 y 染 色 体 中 的 某 一 位 。 








这 之 后 再 进行 两 两 重组 的 计算 ， 产 生 下 一 代 。 


这 里 注意 以 下 两 点 。 


O 断 开 点 的 位 置 。 理 论 上 ， 断 开 点 的 位 置 是 任意 的 ， 但 是 断 开 
点 徘 左 对 数值 影响 变化 大 ， 自 变量 “跳跃 ”范围 也 就 大 ; 靳 开 点 靠 右 对 数 
值 影响 变化 小 ， 目 变量 “跳跃 ”范围 也 就 小 。 





(2) 基因 变异 的 位 置 。 和 断 开 点 位 置 的 影响 是 完全 一 样 的 ， 同 样 
是 变异 反 徘 左上 自 变 量 “ 跳 路 ”范围 大 ， 变 异 点 徘 右 自 变量 “ 跳 路 ”范围 小 。 




















5. 迭 代 计 算 


这 里 直接 看 迭代 计算 的 代码 和 执行 过 程 。 请 注意 ， 由 于 其 中 有 很 多 
随机 的 因素 ， 所 以 计算 的 过 程 结果 可 能 会 不 一 致 ， 友 代 的 代数 也 可 能 不 
一 致 ， 但 是 最 终结 果 应 该 都 是 一 样 的 。 


#coding=utf-8 
import random 
import math 

import numpy as np 
# 染 色 体 长 度 





CHROMOSOME SIZE = 15 
# 判 断 退出 


def is finished: 


last three»: 


S = sorted < 


last three» 


if s[0] and s[2] 


return True 
else. 


return False 
色 体 样 态 


d 


p 


TI 


o> 
D 





def inito: 


chromosome state1 


'101010101010101' ] 
chromosome_state2 


'001100110011001'] 
chromosome state3 


'101010101010101' ] 
chromosome_state4 


'110011001100110' ] 
chromosome_state5 


'101010101010101' ] 
chromosome_state6 


'111100001111000' ] 
chromosome_state7 


- s[0] < 0.01 * s[0]: 


['000000100101001' 


['011000100101100'. 


['001000100100101' 


['000110100100100'. 


['100000100100101' 


['101000100100100'. 


['101010100110100'. 


'101010101010101'] 
chromosome state8 = ['100110101101000', 


'000011110000111'] 


chromosome states = [chromosome state1, 


chromosome state2. 


chromosome state3. 


chromosome state4 


chromosome stateb5. 


chromosome state6. 


chromosome state7. 


chromosome state8] 
return chromosome states 
# 计 算 适 应 度 


def fitness: 


chromosome states»: 


fitnesses - [] 
for chromosome state in chromosome states: 


if chromosome state[0][0] == '1': 


-float < 


int: 


chromosome state[0][1 


2) 


/16384) 


else: 


chromosome_state[0], 


2) 
+ 1) 
/16384) 
if chromosome state[1][0] == '1': 
y=10* (人 
-float < 
int « 


chromosome_state[1][1 


2) 


/16384) 


else: 


float < 


int < 


chromosome state[1]. 


2» 


/16384) 


z= y * math.sin: 


X) 


+ x * math.cos < 


y) 


fitnesses.append: 


Z) 


return fitnesses 


def filter: 


chromosome states 


fitnesses». 


stop 8 对 应 的 索引 值 


chromosome states new = [] 
topi fitness index = 0 
for i in np.argsort ( 


fitnesses» 


-1][: 


8].tolist ©: 


chromosome states new.append.: 


chromosome states[i]» 


topi fitness index - i 
return chromosome states new. 


topi fitness index 
## 产 生 下 一 代 





def crossover ( 


chromosome states»: 


chromosome states new - [] 
while chromosome states. 


chromosome state = chromosome states.pop: 


0) 
for v in chromosome_states: 
pos = random.choice < 
range < 
8, 


CHROMOSOME SIZE - 1) ) 


chromosome states new.append: 


[chromosome state[0][: 


pos] + v[0][pos: 


chromosome state[1][: 


pos] + v[1][pos: 


]b 


chromosome states new.append.: 


[v[0][: 


pos] + chromosome state[1][pos: 


v[9][: 


pos] + chromosome state[1][pos: 


]b 


return chromosome states new 
# 基 因 突 变 


def mutation: 


chromosome states»: 


n = int« 


5.0 / 100 * len« 


chromosome states»» 


while n > 0: 


n -= 1 
chromosome state = random.choice: 


chromosome states» 


index - chromosome states.index: 


chromosome state» 


pos = random.choice < 


range ( 


len: 


chromosome state»»» 


x = chromosome state[0][: 


pos] + str« 


int < 


not int: 


chromosome state[0][pos]»»» 


T 
chromosome state[0][pos-1.: 


y = chromosome state[1][: 


pos] + str« 


int ( 


not int < 


chromosome state[1][pos]»»» 


T 
chromosome state[1][pos-1: 


chromosome states[index] - [x 


yd . 
if name == ' main  ': 





chromosome states = init © 


last three - 
last num = 0 
n = 100 

while n > 0: 


[0] * 3 


n -= 1 
chromosome states = crossover: 


chromosome states» 


mutation 


chromosome states» 


fitnesses - fitness: 


chromosome states» 


chromosome states 
topi fitness index - filter: 
chromosome states 


fitnesses» 


last three[last num] = fitnesses[topi fitness index] 
if is finished: 


last three»: 


break 
if last num »- 2. 


last num = 0 
else. 


last num += 1 
HX: 


7.698 974 609 38 y: 


7.698 974 609 38 zZ: 


8.795 289 238 25 
HX: 


-8.356 933 593 75 y: 


-8.356 933 593 75 Z: 


11.350 199 424 9 
一 



































这 里 最 后 的 收敛 条 件 是 计算 每 一 代 的 适应 函数 最 大 值 并 记录 ， 判 断 最 近 3 代 的 最 大 值 如 何 变化 。 如 果 最 近 3 代 的 








请 注意 ， 在 执行 这 段 代码 中 可 能 会 发 现 这 么 一 个 问题 ， 有 的 时 候 z 值 会 收敛 到 8 .8 附近 ， 此 时 x 和 y 都 在 7.7 附 站 




















从 图 10-27 中 可 以 看 出 ， 
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习 住 的 位 置 就 是 《7.7，7.7) 附近 的 点 ， 而 实际 上 正确 的 解 在 方 框 圈 住 的 位 置 
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TO | 






x 结束 值 : 
— Wx -i0oo00 [iooo00 | 
z |-150s6 [180000 





图 10-27 z=y.sin OO +x.cos (y) 的 图 形 


这 一 类 问题 可 以 考虑 以 下 两 个 解决 方法 。 


初始 种 群 扩大 化 。 























初始 种 群 可 以 不 止 8 个 ， 可 以 是 16 个 、32 个 ， 或 者 更 多 ， 总 之 就 是 一 开始 就 使 得 第 一 代 有 足够 
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每 一 代 现 在 只 是 留 下 8 个 种 群 个 体 ， 同 样 的 ， 可 以 留 下 16 个 、32 个 ， 也 一 村 











会 让 更 








这 两 种 方法 都 采用 之 后 是 可 以 让 找到 最 优 解 的 概率 大 大 增加 的 。 


E EI" 7;f 


ELA TES); 











EL 3c rea DE 

















10.7 ^h 





本 章 是 整 本 书 中 比重 比较 大 的 一 章 ， 也 是 因为 分 类 算法 在 生产 生活 
中 使 用 得 也 最 为 广泛 。 


应 该 注意 到 ， 大 部 分 的 分 类 算法 都 是 基于 统计 概率 的 分 类 算法 ， 而 
几 是 基于 统计 概率 的 分 类 算法 客 其 本 质 仍然 是 贝 叶 斯 概率 体系 下 的 分 类 
原则 。 以 SVM 算法 为 例 ， 要 找 超 平面 来 做 类 别 的 区 分 ， 但 是 类 别 区 分 的 
原则 仍旧 是 根据 已 知 样本 的 特征 情况 ， 也 就 是 抽象 后 的 多 维 空间 向 量 信 
恩 特 征 来 做 分 类 标准 。 在 超 平面 确定 后 ， 对 新 的 待 分 类 样本 仍然 是 根据 
一 个 同 量 的 特征 值 来 判断 其 属于 茶 分 类 或 不 属于 茶 分 类 的 概率 为 多 少 ， 
完 竟 是 哪 一 种 更 高 。SVM 本 质 上 仍旧 是 根据 特征 向 量 在 空间 的 分 布 来 拟 
合 分 类 概率 。 在 判断 新 的 待 分 类 样本 时 ， 如 果 竺 分 类 样本 处 在 超 平面 附 
近 ， 那 束 仍 然 是 一 个 模棱两可 的 样本 ， 是 一 个 归属 或 不 归属 一 个 分 类 概 
率 相当 的 情况 。 

















此 外 ， 有 误 判 的 问题 几乎 是 没 办 法 避免 的 ， 虽 然 这 个 结论 多 少 让 人 
觉得 有 扣 泪 形 。 但 是 ， 只 要 算法 本 里 的 成 本 和 误 判 带 来 的 损失 在 一 个 可 
接受 的 范围 内 即 可 ， 千 万 不 要 过 于 纠结 高 精度 而 训 足 不 前 。 








遗传 算法 在 数学 上 其 实 是 采用 梯度 下 降 的 方法 来 求解 问题 的 。 所 谓 
梯度 在 第 8 章 介绍 最 小 二 乘法 时 已 经 涉及 ， 只 是 当时 没有 这 么 提 。 在 最 


小 二 乘法 时 设计 的 函数 Q Ca, b) 中 ， 误 差 Q 是 一 个 用 a 和 b 表 示 的 函 
数 ， 其 实 也 可 以 看 成 z (X，y) ，z 是 用 x 和 y 来 表示 的 。 在 讨论 Q (a, 
bo 的 极 值 时 ， 说 到 了 仿 微 分 的 概念 ， 也 就 是 求 沿 厦 a 轴 方 铝 和 b 轴 方 癌 
的 多 组 剖面 上 的 切线 斜率 问题 ， 最 后 找到 两 个 方向 上 的 斜率 为 0 的 位 置 
作为 候选 把 。 这 个 结果 是 通过 数学 上 求 偏 导数 的 方式 推导 计算 出 来 的 。 
而 梯度 下 降 的 方法 与 此 不 同 ， 它 的 思路 是 ， 不 求 偏 导数 ， 但 是 沿 着 整个 
曲面 “行进 *， 当 行进 同样 单位 距离 时 函数 值 变 化 大 ， 那 就 说 明和 斜率 大 ; 
而 当 行 进 同样 单位 距离 时 函数 值 变化 小 ， 那 束 说 明和 斜率 小 。 当 行进 一 次 
函数 值 变化 趋 近 0 时 ， 那 就 广 明 到 了 驻 点 附近 。 这 也 是 一 种 很 巧妙 的 思 
路 。 在 极 大 值 问题 求解 的 过 程 中 已 经 展示 过 这 种 方式 的 思路 了 。 

















这 种 方式 在 地 理 地 形 图 上 的 表现 形式 如 图 10-28 所 示 。 


在 地 理 谍 本 上 会 有 地 形 图 ， 而 地 形 图 中 最 容易 让 人 产生 画面 感 的 葛 
过 于 等 蜗 线 图 。 图 10-28 上 用 方 框 疾 出 的 部 分 等 高 线 稠密 ， 表 示 地 形 蜗 
EER, WERE; 用 椭圆 圈 出 的 部 分 等 高 线 系数 ， 表 示 地 形 高 度 变 
化 慢 ， 坡 度 平 缓 。 梯 度 下 降 法 实际 上 是 在 找 等 高 线 黎 琉 的 地 方 ， 那 一 定 
古 一 个 趋 于 平缓 的 地 市 ， 要 么 在 谷底 ， 要 么 在 峰 顺 。 这 束 是 梯度 下 降 法 
的 意义 。 








分 类 属于 有 监督 的 学 习 过 程 ， 这 个 过 程 中 使 用 者 可 以 根据 经 验 以 及 
数学 推导 等 辅助 方法 给 机 器 一 些 指 导 ， 帮 助 机 占 檀 枝 、 收 敛 、 去 噪 等 ， 
让 计算 变 得 更 加 快捷 ， 更 加 准确 。 





(b) 丘陵 一 一 地 势 较 低 ， 起 伏 较 小 


(a) 出 地 一 一 地 势 高 大 陡 战 ， 起 优 大 





(d) 盆地 一 一 中 间 低 ， 四 于 为 山 丘 环绕 


开 状 与 所 陵 类 似 ， 但 表面 平坦 





(c) 台地 





(e) 平原 一 一 地 按 最 低 平 ， 起 伏 最 小 


E E 


28 HEH 


图 10 


第 11 章 ”关联 分 析 


在 学 习 完 聚 类 和 分 类 之 后 ， 补 充 性 地 讨论 一 下 关联 分 析 。 





关联 规则 也 是 人 类 在 认识 客观 事物 中 形成 的 一 种 认 知 模式 。 这 种 关 
联 规则 在 人 的 认 知 里 与 反射 类 似 。 如 在 小 时 候 不 小 心 被 针 扎 到 ， 会 有 痛 
感 ， 这 样 针 刺 和 痛感 就 在 大 脑 里 有 了 这 种 关联 。 再 如 ， 小 时 候 在 不 慌 任 
何 电学 原理 时 也 可 以 发 现 按 下 电灯 开关 ， 电 灯 就 会 点 完 ， 再 按 一 次 ， 电 
灯 束 会 和 关闭。 这 个 对 于 电灯 开关 的 动作 就 和 电灯 亮 灭 的 事件 形成 了 关联 
关系 。 这 就 是 人 在 认识 事物 的 过 程 中 在 认 知 中 所 建立 的 关联 规则 ， 即 通 
过 与 客观 世界 互动 ， 发 现 事物 之 间 存 在 的 依赖 或 者 因果 关系 。 











本 章 讨 论 的 关联 分 析 应 该 说 是 数据 挖掘 教程 体系 里 最 为 经 典 的 部 分 
a 尝试 在 数据 中 发 现 依 赖 或 者 因果 关系 的 方法 。 这 其 中 还 有 一 
个 更 为 经 典 的 案例 ， 即 几乎 在 每 本 BI〈 商 业 智能 ) 教材 或 者 数据 挖掘 教 
材 里 都 会 讲 到 的 “啤酒 和 尿布 ”案例 。 


据说 事情 发 生 在 20 世 纪 80 年 代 的 美国 沃尔玛 ， 销 售 经 理 经 过 研究 零 
售 记 录 发 现 啤酒 和 尿布 会 同时 出 现在 很 多 购物 记录 里 ， 令 人 百 思 不 得 其 
解 。 经 过 观察 发 现 ， 在 这 个 地 区 有 很 多 年 轻 的 父 杀 会 时 第 光顾 超市 ， 在 
超市 里 为 孩子 购买 尿布 的 同时 也 会 为 自己 夹 上 一 些 啤酒 。 从 此 ， 超 市 经 
理 借 题 发 挥 ， 叉 专门 把 啤酒 和 尿布 的 销售 货架 放 在 一 起 ， 进 而 让 啤酒 和 








尿布 的 销量 进一步 提高 。 





虽然 后 来 也 有 一 些 专家 说 这 个 案例 是 假 的 ， 根 本 没 那 么 回 事 ， 完 全 
是 BI 产品 的 销售 人 员 杜 撰 出 来 的 。 不 论 该 案例 的 真 假如 何 ， 这 种 研究 方 
式 却 是 在 零售 行业 得 到 了 比较 广泛 的 应 用 ， 这 种 分 析 也 称 作 “购物 篮 ? 分 
析 。 我 们 一 起 来 看 一 下 ， 这 个 分 析 过 程 是 怎么 实现 的 。 








11.1 MAAM Apriori fx 














一 个 超市 里 每 天 有 很 多 的 购物 记录 ， 很 多 大 卖场 每 天 甚至 可 能 有 数 
万 笔 交 易 ， 为 了 示例 的 方便 假设 一 共有 5 个 购物 记录 。 


wxi: 





(PS, APM, AK E, RY, PER) 


记录 2: 


CG, AMA, Took ABE, RI) 


WS: 


CF inl, Wik, ih OSA, BARA) 


记录 4: 


记录 5; 


酸奶， 巧克力 糖 ， 味 精 ) 


每 个 记录 相当 于 在 超市 发 生 的 一 笔 结 算 ， 一 个 购物 者 把 篮子 里 的 商 


品 都 一 起 扫 码 付 账 。 


11.1.1 频繁 模式 


首先 要 明确 一 点 ， 就 是 在 每 个 购买 记录 中 出 现 的 各 种 单 品 其 实体 现 
的 是 一 种 组 合 的 性 质 。 也 就 是 说 ， 消 费 者 在 购买 了 一 种 单 品 的 同时 叉 购 
买 了 男 一 种 单 品 。 而 且 ， 这 些 单 品 的 组 合 在 记录 中 古 无 序 的 ， 也 就 是 无 
法 知道 在 记录 1 中 完 竟 是 先 “ 购 买 > 了 啤酒 然后 诱 使 他 又 “购买 > 了 香烟 ， 
还 是 先 “ 购 买 ? 了 香烟 后 来 又 购买 了 啤酒 。 因 此 只 能 研究 一 个 无 序 的 组 
合 ， 这 种 组 合 就 叫做 “模式 ”。 











这 些 模式 里 ， 有 的 出 现 频率 很 低 ， 有 的 出 现 频率 很 高 ， 一 般 认 为 频 
率 较 高 的 通常 更 有 指导 意义 ， 这 种 蜗 频 紊 的 模式 就 被 称 作 “ 频 蚂 模式 ”。 


先 尝试 着 把 刚刚 这 些 记录 内 容 放 入 一 个 关系 型 数据 库 的 表格 进行 存 
储 以 备 实验 。 也 可 以 尝试 使 用 数组 、 内 存 向 量 等 其 他 形式 ， 这 些 并 不 影 
啊 Apriori 算 法 的 结果 。 购 物 记 录 表 Buy_list 如 表 11-1 所 示 。 


表 11-1 购物 记录 表 Buy-list 




















流水 号 (Serial) 单 品类 别 (Type) 流水 号 (Serial) 单 品类 别 (Type) 

0001 啤酒 0002 香烟 

0001 香烟 0002 巧克力 糖 
0001 白菜 0002 酸奶 

0001 鸡蛋 

0001 酸奶 0005 酸奶 

0001 BARAK 0005 巧克力 糖 
0002 红酒 0005 味精 














假设 已 经 把 这 个 信息 变 成 了 一 张 表 Buy_list， 表 至 少 有 两 个 字段 
Serial 和 Type。 注 意 ， 在 数据 仓库 里 ， 通 常 Type 这 个 字段 是 一 个 类 别 编 
码 ， 而 不 是 一 个 具体 的 汉字 品名 描述 


11.1.2 SHENAE 


MRNA E ARRAES BY A ZR Te EIS EH t 
频繁 模式 。 衡 量 频率 的 指标 有 两 个 : 一 个 是 文 持 度 ， 一 个 是 置信 度 。 


这 两 个 指标 分 别 指 的 是 这 种 模式 的 有 用 性 和 确定 性 。 设 置 门限 “最 
小 支持 度 ” 和 “最 小 置信 上 度 ”， 文 持 度 和 置信 虐 同时 高 于 这 两 个 门限 就 可 
以 认为 是 频繁 模式 了 。 














例如 ， 购 买 〈 啤 酒 ， 香 烟 ) 模式 的 文 持 度 为 40%， 那 就 是 说 所 有 的 
购买 记录 里 《例子 里 是 5 个 ) ， 有 40% 的 购买 记录 都 包含 这 种 模式 。 





置信 度 是 有 "“ 方 癌 性 ?的 ， 如 果 说 购买 啤酒 的 记录 里 有 1009% 的 记录 
都 购买 了 香烟 ， 那 么 就 说 购买 啤酒 后 购买 香烟 的 置信 度 为 100%; 反问 
地 看 ， 如 果 购 买 了 香烟 的 记录 有 67% 的 记录 都 购买 了 啤酒 ， 那 么 就 说 购 
买 香烟 后 购买 啤酒 的 置信 度 为 679%6。 








为 了 表达 人 简便， 也 销 记 录 如 下 : 
啤酒 => 香 烟 [support=40%; confidence-10096] 


香烟 => 啤 酒 [support=40%; confidence=67%] 








用 SQL 语句 能 够 很 快 地 算出 一 个 模式 的 文 持 度 和 置信 度 。 


啤酒 => 香 烟 ， 支 持 度 计算 的 代码 如 下 : 





SELECT 


TRANSACTION. COUNT.COUNT NUMBER/ TRANSACTION. ALL.COUNT NUMBER 
FROM « 


SELECT COUNT « 


xy 


COUNT_NUMBER 
FROM 
( 


SELECT Serial FROM Buy list WHERE Type= "啤酒 


R1 
INNER JOIN 
( 


SELECT Serial FROM Buy list WHERE Type=' s 


R2 
ON 
R1.Serial=R2.Serial) 


TRANSACTION_COUNT 
INNER JOIN ( 


SELECT COUNT ( 


DISTINCT Serial) 


COUNT_NUMBER 
FROM 
Buy list» 


TRANSACTION ALL 


ON 1-1: 








看 上 去 内 容 比较 多 ， 但 逻辑 很 简单 。 


R1 是 找 出 所 有 有 了 啤酒 的 Serial，R2 是 找 出 所 有 有 香烟 的 Serial， 这 样 
TRANSACTION. COUNT.COUNT NUMBER 就 是 同时 既 有 啤酒 又 有 香 





烟 的 Serial 的 数量 了 。 后 面 TRANSACTION_ALL.COUNT_NUMBER 是 
所 有 购买 记录 的 数量 。 两 者 相 除 得 到 支持 度 。 


啤酒 => 香 烟 ， 置 信 度 计算 的 代码 如 下 : 





CREATE TABLE TEMP ( 


R1 Serial VARCHAR ( 


64). 


R2 Serial VARCHAR < 


64) ) 


AS 
SELECT * 
FROM « 


SELECT Serial R1 Serial FROM Buy list WHERE Type= 啤酒 


"3 


R1 
LEFT JOIN < 


SELECT Serial R2 Serial FROM Buy list WHERE Type=' ' 香烟 


R2 
ON Ri1.R1 Serial-R2.R2 Serial. 


SELECT R2.R2 COUNT/R1.R1 COUNT 
FROM « 


SELECT COUNT « 


* 


R2 COUNT 
FROM 
TEMP 
WHERE R2 Serial IS NOT NULL) 


R2 
INNER JOIN: 


SELECT COUNT ( 


*) 


R1_COUNT 
FROM 
TEMP) 


R1 
ON 1=1; 








简单 解释 一 下 ， 前 面 的 部 分 是 建造 一 个 只 有 两 列 的 数据 表 ， 第 一 列 
R1 是 所 有 有 啤酒 的 Serial， 第 二 列 R2 是 所 有 有 香烟 的 Serial，LEFT JOIN 
后 会 得 到 一 个 R2 有 可 能 产生 NULL 的 数据 视图 。 第 二 个 SQL 里 前 半 部 分 
的 R2.R2_COUNT 是 为 了 求 出 有 啤酒 且 有 香烟 的 Serial 数 量 ， 后 半 部 分 的 
R1.R1_COUNT 是 为 了 求 出 所 有 含有 啤酒 的 Serial 数 量 。 两 者 相 除 得 到 置 





信 度 。 





按照 定义 一 步 一 步 去 求 看 上 去 非常 吃 嗪 ， 有 兴趣 的 读者 可 以 尝试 优 
化 SQL 的 写法 。 


在 这 里 请 注意 ， 在 生活 中 各 超市 各 卖场 的 购物 篮 分 析 场 景 里 ， 文 持 
度 和 置信 度 都 远 没 有 上 述 例子 这 么 蜗 。 很 大 数量 的 文 持 度 和 置信 上 度 可 能 
都 只 有 上 百 分 之 零点 几 或 者 晶 分 之 零点 零 儿 。 现 在 再 来 回答 刚刚 的 那个 问 
题 “ 支 持 度 和 置信 度 多 高 才 算 高 呢 ? ”在 比较 成 熟 的 行业 ， 或 者 有 行业 专 
家 可 以 请 教 的 时 候 ， 可 以 寻求 行业 专家 的 帮助 ， 让 他 们 设置 一 个 合适 的 
值 。 如 果实 在 没有 行业 专家 可 以 咨询 ， 可 以 尝试 在 所 有 商品 中 找 出 所 有 
的 模式 ， 会 发 现 有 一 些 模式 的 文 持 度 和 置信 度 同 时 都 比 其 他 高 很 多 ， 这 
时 可 以 考虑 用 所 有 模式 的 支持 度 的 平均 值 和 置信 和 度 的 平均 值 作为 参考 ， 
适当 提高 一 些 作为 国 值 做 过 滤 。 这 样 过 沽 下 来 的 模式 就 可 以 作为 频繁 模 
式 进 行进 一 步 研究 。 









































ARRA CE PE te A ELS E ren B6 A ECBOBOA Z9 re URB a ? 





AR SC FF PE te Es EA, IR yo SE TINY HEU, (EL “Fe 
化 率 ” 可 能 比较 低 。 而 如 果 支 持 度 比 较 低 ， 但 是 转化 率 比 较 高 ， 说 明 这 
种 模式 在 所 有 的 模式 里 很 平常 ， 甚 至 可 能 不 能 算 “ 频 或 ?。 所 以 基于 这 样 
的 原因 ， 通 常 还 是 会 选择 支持 度 和 置信 和 皮 都 高 于 阔 值 的 门限 的 模式 作为 
频繁 模式 。 




















11.1.3 经 典 的 Apriori 算 法 





刚才 讲 过 ， 找 出 频繁 项 集 实际 是 找 出 同时 满足 最 小 支持 度 和 最 小 置 
信和 度 的 模式 。 在 Apriori 算 法 的 观点 中 ， 这 个 求解 过 程 要 分 以 下 几 个 步 


又 。 











步 又 1: FCB T Ae SCREBETEZS BUR T TER RETIA. AA 
Pee) SE SDE ee  SCREISERI oc) Efi GOL ERE ORL, de SCREEN rd 
更 为 简单 一 些 。 假 设 设置 的 最 小 文 持 度 为 40%【〈 也 可 以 举 试 设置 为 其 他 
值 ) 。 








步骤 2: 扫描 所 有 满足 最 小 支持 度 的 单 品 。 这 个 步骤 的 逻辑 很 简 
单 ， 假 设 有 一 个 单 品 和 另 一 个 单 品 组 合 的 模式 满足 最 小 支持 度 40%， 那 
该 单 品 首先 必须 在 所 有 购买 记录 中 出 现 的 概率 大 于 等 于 409% 才 有 可 能 ， 
这 是 一 个 必要 条 件 。 所 以 扫描 所 有 满足 最 小 支持 度 的 单 品 ， 找 出 大 于 等 
于 40% 的 。 


在 本 例 中 ， 单 品 文 持 度 ， 如 表 11-2 所 示 。 


表 11-2 Rh RE 


























单 品类 别 (Type) 支持 度 (Support) 单 品 类 别 (Type) 支持 度 (Support) 

啤酒 40% 奶 糖 20% 
Fr KA 60% 食盐 2096 
白菜 2096 冷冻 鸡肉 20% 
AS A 20% 一 次 性 酒杯 2096 
酸奶 60% 瓜子 20% 
HAE aR 40% 化 生 2096 
红酒 20% iE Sm 20% 
巧克力 糖 40% 味精 20% 
牙刷 20% 














过 涯 出 候选 单 品 ， 即 满足 最 小 文 持 度 40% 的 单 品 ， 如 表 11-3 所 示 。 





411-3. SC REREAK T 5$ T 40961] FR. ir 


单 品类 别 (Type) 支持 度 (Support) 单 品 类 别 (Type) 支持 度 (Support) 
啤酒 DAE AR 4096 
否 烟 


酸奶 60% 


















在 这 个 过 程 中 可 以 发 现 ， 大 量 小 于 40% 的 单 品 已 经 被 过 滤 掉 了 ， 这 
个 过 程 在 算法 中 叫 剪 枝 。 再 逐 级 组 合 查找 模式 时 ， 有 很 多 的 单 品 可 以 完 
全 置之不理 了 .“ 剪 梳 法 ?是 算法 科学 中 一 个 比较 重要 的 思路 ， 在 很 多 算 
法 中 有 广泛 的 应 用 ， 即 利用 数学 特性 或 一 些 其 他 技巧 过 滤 掉 那些 没 必要 
计算 的 情况 ， 用 来 降低 算法 的 时 间 复 杂 度 。 





步骤 3: ”查找 满足 条 件 的 2 项 模式 。 根 据 已 经 过 滤 出 的 单 品 ， 组 合 
一 下 看 候选 的 2 项 模式 有 哪些 ， 然 后 在 前 面 的 数据 里 具体 比 对 一 下 ， 是 
人 否 存 在 以 及 看 有 儿 个 。 


啤酒 和 香烟 ， 出 现 过 2 次 ，2/5=40%。 


啤酒 和 酸奶 ， 出 现 过 1 次 ，1/5=20%。 


得 到 表 11-4《〈 候 选 的 2 项 模式 ) 。 


表 11-4 ”满足 条 件 的 2 项 模式 














2 项 模式 (Type, Type) 支持 度 (Support) 2 项 模式 (Type, Type) 支持 度 (Support) 
啤酒 ， 香 烟 40% 香烟 ， 卫 生 纸 20% 
啤酒 med 2096 A4. 15757] 9 2096 
啤酒 ， 卫 生 纸 2096 m. DAE 20% 
啤酒 ， 巧 克 力 糖 0% 酸奶 ,巧克力 糖 40% 

否 烟 ， 酸 奶 40% DESC, 15367] 0% 














在 所 有 已 经 滤 出 的 2 项 模式 中 ， 找 出 满足 最 小 支持 度 的 2 项 模式 〈 本 
例 中 为 满足 最 小 支持 度 为 40% 的 2 项 模式 ) ， 如 表 11-5 所 示 。 


目前 只 剩 下 3 个 2 项 模式 了 。 





步 又 4: 查找 满足 条 件 的 3 项 模式 。 这 个 过 程 与 步 又 3 类 似 ， 注 意 现 
在 还 剩 下 哪些 单 品 是 有 可 能 的 。 假 设 有 一 个 单 品 和 另外 两 个 单 品 组 合 的 
模式 满足 最 小 支持 度 40%， 那 么 这 两 个 单 品 组 合 而 成 的 2 项 模式 同样 必 
须 满足 文 持 度 409%。 





表 11-5 ”满足 最 小 支持 度 的 2 项 模式 


2 项 模式 (Type, Type) 支持 度 (Support) 


啤酒 ， 香 烟 40% 
TA, 40% 
Heu. 15 5c Be 40% 


AR PR1-S PGA, GE. HEUS. Tre 7]BR3X44 Rd S o 


候选 的 2 项 模式 如 表 11-6 所 示 。 


表 11-6 ”候选 的 2 项 模式 


2 项 模式 (Type,Type) 支持 度 (Support) 
啤酒 ， 香 烟 40% 
TA, Neu 40% 
R, EH 40% 


AH TE — FRM HR LSA, TRE BÉ SOUL LE 11-7 TAR 


4211-7 候选 的 3 项 模式 


3 项 模式 (Type, Type, Type) | 支持 度 (Support) 


啤酒 ， 香 烟 ， 酸 奶 2096 
啤酒 ， 和 香烟， 巧克力 糖 0% 
香烟 ， 酸 奶 ， 巧 克 力 糖 0% 


观察 及 现 ， 到 目前 为 止 ， 所 有 候选 的 3 项 模式 都 “阵亡 ”了 ， 全 都 不 
满足 40% 的 门限 要 求 。OK， 那 就 结束 ， 算 到 这 里 为 止 ， 因 为 我 们 也 不 


可 能 找到 满足 条 件 的 3 项 、4 项 以 及 以 后 任何 多 种 符合 条 件 的 频繁 模式 
了 。 如 果 大 家 对 这 个 算法 的 学 术 性 表达 感 兴趣 ， 可 以 阅读 《数据 挖掘 概 
念 与 技术 ( 原 书 第 3 版 ) 》 (Jiawei Han. Micheline Kamber, Jian Pei 





著 ) 的 第 161 页 到 164 页 。 


回 过 头 来 介绍 上 述 笛 卡 儿 积 是 怎么 做 的 。 如 果 没 学 过 笛 卡 儿 积 的 朋 
友 请 往 下 看 ， 学 过 的 请 自动 跳 过 。 


我 们 从 1 项 〈 单 品 ) 到 2 项 的 时 候 是 怎么 做 的 呢 ? 


先 从 所 有 1 项 中 罗列 出 所 有 的 单 品 : 


1 项 集合 = (啤酒 ， 香烟 ， 酸奶 ， 卫生 纸 ， 1555 7] Bà ) 


2 项 集合 =1 项 集合 x1 项 集合 


注意 : 香 卡 儿 积 就 是 用 x 号 两 边 的 两 个 集合 中 的 元 素 去 做 一 对 一 的 
循环 匹配 ， 匹 配 结果 列表 就 是 笛 卡 儿 积 的 乘积 〈 结 果 ) 。 





2 项 集合 =1 项 集合 x1 项 集合 


= H, FW, R, PER, IHIH x A, AN, R 
奶 ， 卫 生 纸 ， 巧 殉 力 糖 ) 


W, TEW, W, DER), EW, E, EA, E 


ANO. CEW, RI), CEW, BAAD, CEM, DHIR) ， 
酸奶， 啤酒 ) ，【〔 酸 奶 ， 香 烟 ) . RP, RD), RP, TE 
A) , CH, DRD , CRAM, BD. (TÆR, FWD), 
CEE, PRY) CEER, BEAD, CRAM, LEAR , 
(3536788, MNF) , COs AE, FAD o, CINI, RY) ， 
(omit, BM), ConA, TAH) ) 





从 标准 的 箔 卡 儿 乘 积 中 ， 得 到 了 上 述 25 个 2 项 模式 。 但 是 并 非 所 有 
的 结果 都 有 意义 ，〔 啤 酒 ， 啤 酒 ) 这 样 的 结果 虽然 在 笛 卡 儿 乘 积 上 是 有 
意义 的 ， 但 是 在 业务 解释 中 是 没有 意义 的 ， 因 为 谁 都 不 会 去 研究 买 
了 “啤酒 ?又 买 了 “啤酒 ?的 情况 。 此 外 ， 啤酒， 香烟 ) 和 (香烟 ， 啤 
酒 ) 只 需要 保留 一 个 即 可 ， 因 为 组 合 不 关心 方向 问题 。 这 样 就 留 下 了 候 
选 的 2 项 集合 : 


( (啤酒 ， 香 烟 ) ，〔 啤 酒 ， 酸 奶 ) ， E, PE, 
酒 ， 巧 克 力 糖 ) ， 


(香烟 ， 酸 奶 ) ， 香烟， 卫生 纸 ) ， EM, BEIR, 
奶 ， 卫 生 纸 ) ， 


酸奶， 巧克力 糖 ) » (BAM, DAIR ) 


一 共 10 个 。 


最 后 这 个 3 项 集合 的 算法 和 2 项 的 算法 略 显 不 同 ， 但 是 本 质 是 一 样 
的 ; 


3 项 集合 =2 项 集合 x2 项 集合 =2 项 集合 x1 项 集合 x1 项 集合 


= ( CNP, FAD, HA, RID, RW, PEW, 
i. GEIR) ,. CEW, RID, CEW, BAA) , CEM, Dw 
力 糖 ) . RI, PEW, CRW, IAID , (BAR, IE 
Mi) ) 


x CORN, 85, CON. RD, COH. FÆR), (Om 
i. Foot FE) ,. CEW, RID, CEM, KÆR), CEM, Tw 
TBE)» RI, PEW, CRW, eA) . (BAR, wE 
糖 ) ) 


奶 ) , COME, S4 x (OS D/Ed ,. ，.…. 


AN, MPG), CRR, GRAN. PW). 





XI] TA xe 3 MB LRA SE EVE A BESS, ETUR RR IA A 
KS 


4 项 集合 以 此 类 推 。 





这 样 实际 上 求 出 的 是 所 有 的 满足 文 持 度 和 置信 和 度 的 频繁 项 集 ，2 
项 、3 项 .……. 一 直到 N 项 ， 只 要 它们 满足 设置 的 文 持 度 和 置信 度 ， 就 都 
能 修 计 算出 来 。 





11.1.4. 求 出 所 有 频繁 模式 





刚刚 的 例子 里 写 了 两 段 SQL 语句 ， 主 要 是 为 了 验算 “啤酒 => 香 烟 ? 的 
支持 度 和 置信 度 。 剩 下 的 整个 算法 实际 是 使 用 了 SQL 语言 进行 完整 文 持 
度 和 置信 度 的 计算 算法 的 实现 。 











如 果 要 计算 所 有 模式 的 支持 度 和 置信 度 ， 显 然 是 不 能 用 这 样 的 方式 
的 ， 确 实 不 会 列 出 很 多 的 一 个 一 个 的 单 品 ， 然 后 一 个 一 个 地 代入 去 求 它 
们 的 支持 度 。 可 以 试 着 用 其 他 的 SQL 语 句 来 求 出 所 有 模式 的 支持 度 和 置 
信 度 ， 其 实 并 不 难 。 








首先 希 望 有 一 个 表 能 够 构造 出 穷 举 所 有 模式 的 方式 ， 代 码 如 下 : 


CREATE TABLE PATTERNS ( 
Serial VARCHAR ( 

64), 

Typei VARCHAR ( 

64), 

Type2 VARCHAR ( 


64) ) 


SELECT R1.Serial Serial. 


R1.Type1 Typei. 


R2.Type2 Type2 
FROM < 


SELECT Serial 


Type Type1 FROM Buy list» 


R1 
INNER JOIN ( 


SELECT Serial 


Type Type2 FROM Buy list» 


R2 
ON R1.Serial=R2.Serial AND R1.Type1<>R2.Type2; 





现在 得 到 一 个 PATTERNS 表 (3211-8) 了 ， 这 个 表 有 两 列 ， 里 面 是 
所 有 的 Type 组 合 的 结果 ， 而 且 绝对 不 包含 模式 的 两 个 元 素 为 同一 元 素 的 
情况 。 这 个 表 构 造 完毕 后 会 得 到 一 个 Serial，Typel，Type2 的 穷 举 组 
合 ， 穷 举 了 在 所 有 购买 记录 中 的 各 次 购买 清单 里 的 组 合 ， 而 且 正 反问 组 
合 各 存在 一 次 。 以 Serial 为 0001 为 例 : 





表 11-8 PATTERNS 














流水 号 (Serial) | 单 品类 别 (Type1 ) | 单 品 类 别 (Type2 )| 流水 号 ( Serial) | 单 品类 别 (Type1 ) | 单 品 类 别 (Type2 ) 
0001 啤酒 香烟 0001 香烟 EE 
0001 啤酒 白菜 0001 香烟 鸡蛋 
0001 啤酒 6E 0001 香烟 酸奶 
0001 啤酒 酸奶 
0001 香烟 啤酒 




















这 里 的 Type1 和 Type2 是 有 方向 的 ， 指 代 的 是 Typel1=>Type2， 代 码 
如 下 : 





SELECT COUNT ( 


* > 


Support. 


Type1. 


Type2 

FROM 

PATTERNS 

GROUP BY Type1， 


Type2; 





也 许 有 的 读者 朋友 会 认为 COUNT CO 需要 除 以 2， 其 实 是 没有 必 
要 的 ， 因 为 这 里 认为 Type1 和 Type2 是 有 方向 的 ， 也 就 是 说 Type1 和 
Type2 分 别 代表 啤酒 和 香烟 ， 和 分 别 代 表 香 烟 和 啤酒 是 两 种 不 同 的 情 
Us 





SELECT COUNT « 


DISTINCT Serial 


TRANSACTION COUNT 
FROM 
PATTERNS; 


用 每 行 的 Support 除 以 TRANSACTION_COUNT， 就 能 得 到 所 有 单 品 
对 应 Typel=>Type2 的 支持 度 了 。 两 个 SQL 语句 可 以 写 在 一 起 ， 就 不 需要 
两 次 请 求 数 据 库 了 。 如 果 要 用 浆 值 门限 过 滤 文 持 度 ， 可 以 用 WHERE 语 
句 进行 谓词 限制 。 








求 置信 和 度 相 对 抵 烦 一 些 ， 但 是 也 不 难 。 思 路 是 ， 求 Type1l=>Type2 
的 置信 和 度 ， 即 用 同时 有 Type2 和 Typel1 的 购买 记录 数 除 以 所 有 含有 Typel 
的 购买 记录 数 。 





CREATE TABLE TYPE COUNT VIEW: 


Type count INT. 


Type VARCHAR ( 


64) ) 


AS 
SELECT COUNT « 


*5 


Type count. 


Type 
FROM 
Buy list 
GROUP BY Type. 





临时 表 为 TYPE_COUNT_VIEW， 它 只 放置 了 Type 和 它 出 现 的 数量 
Type_count 两 个 数据 列 。 


D UI 


SELECT R1.Type1i. 


R1.Type2. 


R1.Type count/TYPE COUNT VIEW.Type count Confidence 
FROM ( 


SELECT COUNT « 


Type count. 


Type1, 


Type2 

FROM 

PATTERNS 

GROUP BY Type1， 


Type2) 


R1 
INNER JOIN 
TYPE_COUNT_VIEW 
ON R1.Type1=TYPE_COUNT_VIEW. Type: 








最 后 得 到 R1.Typel1、R1.Type2、Confidence， 每 一 条 记录 的 这 3 个 字 
段 的 含义 束 是 Typel=>Type2 以 及 它们 的 置信 和 度 Confidence。 


TYPE_COUNT_VIEW 构 造 的 是 每 个 单 品 出 现 的 次 数 。 








R1 是 所 有 Typel=>Type2 的 组 合 ， 每 行 记录 表示 Type1=>Type2 出 现 
的 次 数 ， 正 反 两 个 方 句 都 有 ， 也 就 是 啤酒 => 香 烟 ， 香 烟 => 啤 酒 分 别 进 
行 了 统计 。 


IEXOERUKITPARTTERNS.Typel-TYPE COUNT VIEW.Type, iX 
个 构造 出 来 的 方向 性 实际 上 只 对 Typel=>Type2 敏 感 。 最 后 得 到 的 记录 
结果 就 是 想 要 的 结果 。 记 得 在 最 后 这 段 SQL 语 名 上 加 上 对 于 置信 度 
Confidence 的 过 滤 条 件 限 制 ， 过 滤 出 那些 满足 最 小 置信 度 的 模式 。 








这 里 需要 强调 的 是 ， 刚 刚 用 SQL 求 解 的 过 程 是 一 个 对 于 最 小 频繁 2 
项 集 的 求解 过 程 ， 也 惑 是 求解 那些 “ 哪 两 个 " 单 品 的 组 合 的 支持 度 和 置信 
度 能 够 满足 要 求 。Apriori 算 法 的 求解 过 程 是 求解 所 有 最 小 频繁 项 集 ，2 
项 、3 项 ..……... 一 直到 N 项 ， 只 要 它们 满足 设置 的 支持 度 和 置信 度 ， 这 束 














11.2 关联 分 析 与 相关 性 分 析 











在 使 用 Apriori 算 法 计算 出 有 较 高 文 持 度 和 较 遍 置信 和 度 的 频繁 模式 之 
后 ， 要 对 这 些 频 繁 模 式 进行 一 些 于 别 或 者 分 析 。 但 是 ， 是 不 是 所 有 的 频 
繁 模式 都 是 有 趣 的 ? 











关于 有 趣 模式 ， 在 第 10 章 做 过 一 些 讨 论 。 如 果 一 个 模式 具备 以 下 特 
点 ， 则 和 它 是 有 趣 的 《Interesting) 。 





WY 


(1) 易于 被 人 理解 。 


WY 


(2) 在 东 种 确信 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 。 


WY 


(3) 是 潜在 有 用 的 。 


WY 


(4) FET AA o 


IK EOE UA RAB AY Ea, Wal. EAA, HE RA AS 
BLAU RERO. CAT Ee BE AER A E A ERRORS o 


Apriori 能 够 过 滤 出 关联 度 较 高 的 模式 ， 但 是 还 不 能 对 相关 性 做 出 解 


这 里 需要 引入 一 个 有 关 相 关 规 则 的 分 析 。 


在 前 面 见 过 这 样 一 种 记述 方式 ， 啤 酒 => 香 烟 [support=4096; 
confidence=1009%]， 也 就 是 Type1=>Type2[ 支 持 度 ， 置 信 度 ] 的 这 种 对 频 
繁 项 集 〈 关 联 规则 ) 的 记述 方式 ， 现 在 增补 一 种 新 的 方式 ， 
Type1=>Type2[ 支 持 度 ， 置 信和 度 ， 关 联 度 ]， 其 中 关联 度 记 作 


correlation。 











提升 度 〈Lift) 是 一 种 简单 的 关联 度 上 度量 ， 也 是 一 种 比较 容易 实现 
的 统计 方法 。 


P(B | A) 
P(B) 





Lift( 4, B) = 


EXC R DLREBEA OSA. SSI AMBER XM, A 
边 分 子 是 发 生 A 的 情况 下 发 生 B 的 概率 ， 分 母 是 发 生 B 的 概率 。 


当 相关 性 是 1 时 ，P (BIA) 5P (B) 相等 ， 也 就 是 说 在 全 样本 空间 
内 ，B 发 生 的 概率 和 在 发 生 A 的 情况 下 发 生 B 的 概率 是 一 样 的 ， 那 么 它们 
就 是 毫 无 关系 。 





当 相 关 性 大 于 1 时 ，P (BIA) AFP (B) ， 也 就 是 说 在 全 样本 空间 
内 ， 发 生 A 的 情况 下 发 生 B 的 概率 要 比 单独 统计 B 发 生 的 概率 要 大 ， 那 么 
B 和 A 是 正 相 关 的 。 换 句 话说，A 的 发 生 促进 了 B 的 发 生 。 


相反 ， 当 相关 性 小 于 1 时 ，P (BIA) 小 于 P OD ， 也 就 是 说 在 全 样 
本 空间 内 ， 发 生 A 的 情况 下 发 生 B 的 概率 要 比 单 独 统计 B 发 生 的 概率 要 


小 ， 那 么 B 和 A 有 是 负 相关 的 。 换 句 话说 ，A 的 发 生 抑 制 了 B 的 发 生 。 





还 是 以 刚刚 做 好 的 PATTERNS 表 为 例 ，SQL 代 码 如 下 : 





SELECT FRACTION.Typei 
FRACTION.Type2. 


FRACTION.PBA/NUMERATOR.PBPossibility 
FROM « 


SELECT Ri.Support/R2.TRANSACTION COUNT PBA, 
R1.Typei. 


R1.Type2 
FROM 
( 


SELECT COUNT ( 
*) 
Support, 
Type1. 


Type2 
FROM 
PATTERNS 
GROUP BY Typei. 


Type2 
) 


R1 
INNER JOIN 
( 


SELECT COUNT ( 


DISTINCT Serial 


TRANSACTION COUNT. 


Typei 
FROM 
PATTERNS 
GROUP BY Typei 
) 
R2 


ON R1.Type1=R2.Type1) 


FRACTION 
LEFT OUTER JOIN ( 


SELECT R3.counts/R4.TRANSACTION_COUNT PB, 


Type2 
FROM 
( 


SELECT COUNT ( 


DISTINCT Serial) 


counts, 


Type2 
FROM PATTERNS 
GROUP BY Type2 


R3 
INNER JOIN 
( 


SELECT COUNT ( 


DISTINCT Serial) 


TRANSACTION_COUNT 


FROM 
PATTERNS 
) 


R4 
ON 1=1) 


NUMERATOR 
ON FRACTION. Type2=NUMERATOR. Type2 








其 中 Possibility 就 是 要 求 的 每 个 单 品 Type 对 应 的 要 求 的 提升 度 ， 
Type1 和 Type2 分 别 对 应 公式 中 的 A 和 B 两 个 项 目 。 条 件 概率 P (BIA) 的 
求法 和 求 支 持 度 的 思路 是 一 样 的 ， 这 里 不 再 资 述 。 





可 以 发 现在 这 个 求 相 关 性 分 析 的 过 程 中 没有 新 的 内 容 ， 仍 然 是 对 文 
持 度 的 求解 ， 只 是 要 对 单 品 独立 的 购买 行为 也 要 求解 ， 看 看 这 个 文 持 度 
起 的 作用 是 促进 购买 概率 上 升 还 是 下 降 ， 仅 此 而 已 。 


11.3. UB TON TUN 


在 关联 分 析 的 过 程 中 ， 还 有 一 类 研究 和 前 面 研究 的 内 容 不 同 ， 前 面 
研究 的 都 是 频 索 模式 ， 但 也 有 一 些 情况 下 反而 更 关心 那些 格外 “不 频 
繁 ”的 模式 ， 那 就 是 黎 有 模式 和 负 模 式 。 








所 谓 稀有 模式 ， 是 文 持 度 远 低 于 设 定 的 文 持 度 的 模式 。 这 里 请 注意 
一 扣 ， 在 前 面 研究 频繁 模式 设 定 文 持 度 时 ， 设 置 的 这 个 门限 阐 值 要 么 是 
行业 内 的 一 个 经 验 值 要 么 是 挑选 的 大 量 支 持 度 统计 的 平均 值 ， 大 于 这 个 
数字 ， 就 认为 是 一 个 频繁 模式 。 然 而 并 不 是 小 于 这 个 数字 就 是 稀有 模 
式 ， 而 是 要 设置 一 个 比 这 个 数字 小 得 多 的 值 作为 过 滤 条 件 ， 比 这 个 值 小 
很 多 的 值 才 是 稀有 和 模式。 至 于 设置 为 多 少 ， 很 难 用 一 个 具体 的 数字 划 
分 ， 在 实际 生产 生活 中 可 以 考 夸 用 文 持 度 倒 排序 的 功能 去 找 那 些 文 持 度 
极 低 的 模式 。 














而 对 于 负 相 关 ， 从 名 称 来 考虑 ， 基 本 可 以 认为 ， 一 种 事物 的 增加 同 
时 惑 对 应 另 一 种 事物 的 减少 ， 这 种 直观 感觉 下 的 两 种 事物 就 是 负 相关 
的 。 这 样 的 事物 在 日 种 生活 中 同样 会 遇 到 很 多 ， 例 如 ， 这 个 月 购买 数码 
产品 的 预算 一 共 是 3000 元 ， 那 么 买 了 数码 照相 机 ， 购 买 PS4 游 戏 机 的 预 
算 就 不 足 ， 导 致 不 能 购买 PS4 游 戏 机 ;， 相反 ， 如 果 买 了 PS4 游 戏 机 ， 则 
很 可 能 由 于 预算 不 足 不 能 购买 数码 照相 机 。 在 大 量 的 购物 宏观 统计 中 ， 
这 就 不 是 观察 一 个 人 的 行为 了 ， 而 是 观察 很 多 人 在 大 量 购买 行为 中 出 现 














的 这 种 取舍 性 的 负 相 关 行 为 。 


一 般 来 说 ， 如 果 X 和 Y 都 是 频繁 的 ， 但 是 很 少 或 者 不 一 起 出 现 ， 那 
么 就 说 X 和 Y 是 负 相 关 的 ，X 和 Y 组 成 的 模式 是 负 相 关 模 式 。 如 果 X 和 Y 
组 成 的 模式 支持 度 远 远 小 于 X 的 文 持 度 与 Y 的 支持 度 的 乘积 ， 那 么 束 说 X 
和 Y 是 强 负 相关 的 。 











要 计算 是 否 为 强 负 相关 模式 ， 还 是 要 在 整个 样本 空间 里 找到 这 种 此 
消 彼 长 ， 至 少 是 很 少 一 起 出 现 的 频繁 模式 。 在 实际 生产 中 ， 挖 气 负 相关 
模式 的 场景 还 是 很 多 的 。 如 在 购物 篮 分 析 中 ， 当 发 现 有 一 些 物品 X 和 Y 
都 比较 频 索 ， 但 是 却 通 党 只 出 现 其 中 一 个 时 ， 可 以 来 进行 统计 分 析 ， 看 
看 这 些 负 相关 的 物品 是 否 满足 了 人 们 在 某 一 大 领域 的 需求 ， 进 而 估算 人 
们 在 这 个 领域 的 预算 规模 和 购物 规律 。 在 病症 治疗 或 者 基因 分 析 中 同样 
可 以 用 负 模 式 挖 据 的 方法 来 发 现 那些 有 关联 的 疾病 或 抗体 。 例 如 ， 在 得 
过 A 疾 病 的 患者 中 ， 答 患 B 疾 病 的 病人 比例 比 普 通 人 小 很 多 ， 那 么 就 可 
以 推断 很 可 能 A 疾病 会 让 病人 同时 具备 抵抗 B 疾 病 的 抗体 。 


























11.4 aH 





关联 分 析 是 数据 挖掘 中 比较 重要 的 一 环 ， 尤 其 是 关于 频繁 项 集 的 分 
析 问 题 。 
在 计算 机 辅助 进行 的 数据 处 理 中 ， 所 有 的 频繁 项 集 的 问题 都 能 用 基 


于 关系 型 数据 库 的 统计 方法 进行 分 机 ， 如 条规 模 巨 大 则 可 以 用 分 布 式 关 
系 型 数据 库 或 者 抽样 数据 进行 分 析 。 








关联 分 析 在 农业 、 和 军事 、 刑 侦 、 医 学 等 很 多 领域 都 有 着 广泛 的 应 
用 ， 是 帮助 人 们 认识 事物 之 间 的 关联 关系 的 重要 手段 ， 在 建立 专家 系统 
或 者 知识 库 的 过 程 中 ， 有 着 不 可 丛 代 的 作用 ， 请 读者 多 练习 与 思考 。 


E1238 ”用户 画像 





“用 户 画 像 * 这 个 说 法 现在 在 数据 分 析 和 数据 挖掘 领域 很 流行 。 


这 个 说 法 比较 形象 ， 它 是 指 在 数据 库 或 数据 仓库 里 使 用 用 户 信息 的 
记录 ， 对 这 些 信息 逐渐 丰富 以 后 完成 对 用 户 的 描述 。 整 个 描述 的 过 程 惑 
像 给 用 户 画 像 一 样 ， 一 笔 一 笔 照 痢 模特 画 ， 最 后 完成 对 模特 样子 的 摘 





希望 对 用 户 做 “画像 ”的 目的 也 是 比较 明确 的 ， 就 是 希望 通过 某 些 手 
段 对 用 户 做 对 别 ， 把 他 们 分 成 彼此 相同 或 不 同 的 人 群 或 个 体 ， 进 而 区 别 
化 提供 服务 和 进行 观察 分 析 一 一 这 通 第 是 做 用 户 画 像 的 核心 目的 所 在 。 








在 数据 库 或 者 数据 仓库 中 怎么 对 用 户 进 行 画像 呢 ? 最 常用 的 办 法 是 
FH tas SE RT H ET RAHI 


12.1 标签 


标签 的 英文 常用 的 有 Tag 和 Label， 怎 么 用 词 不 重要 ， 关 键 看 标签 怎 
么 用 (图 12-1) 。 





图 12-1 标签 


这 些 标签 是 从 哪里 来 的 ? 其 实 是 从 很 多 收集 到 的 和 用 户 相 关 的 线索 





中 来 的 。 什 么 是 线索 ? ue RII? ERIA ERA E PS PRT Aid 
录 ， 这 些 记录 基本 是 从 各 种 各 样 的 日 志 中 来 。 


12.2 ”画像 的 方法 





打 标 俭 这 件 事情 在 我 们 发 明 “ 用 户 画 像 " 这 个 词 之 前 就 已 经 有 了 。 








例如 ， 有 很 多 人 性 格 鲜明 ， 当 大 家 提 到 他 的 名 字 时 ， 脑 海里 很 容易 
联想 起 一 些 形象 ， 或 者 一 些 词 汇 。 如 一 说 起 医生 ， 有 的 人 脑海 里 就 会 浮 
现 出 “日 衣 天 使 “救死扶伤 ”这 样 的 词汇 ， 但 是 有 的 人 脑海 里 就 会 浮现 
出 “勒索 钱财 “态度 恶劣 ”这样 的 词汇 。 同 样 的 一 个 或 一 类 对 象 在 两 个 不 
同 的 人 看 来 可 能 是 完全 不 同 的 标签 内 容 ， 原 因 可 能 就 是 这 两 个 人 平时 天 
注 的 新 闻 热 点 不 一 样 或 者 经 历 不 一 样 。 又 如 听 到 会 计 这 个 职业 ， 残 会 想 
到 “精细 “准确 *"， 听 到 拳击 运动 员 束 会 联想 到 “强壮 “矫健 "。 这 束 是 最 
初 的 “ 打 标 签 ? 动 作 ， 和 IT 技术 无 关 ， 只 是 根据 上 自己 的 认 知 所 留 的 印象 而 
Bis 





我 们 回 过 来 说 说 生产 中 用 到 的 例子 ， 先 看 看 数据 库 吧 。 


12.2.4 结构 化 标签 


其 实在 学 习 关 系 型 数据 库 时 ， 一 张 表 里 就 融入 了 这 种 “画像 ?的 方 
































法 。 这 里 以 数据 库 中 的 用 户 信息 登记 表 Table_User 为 例 介 绍 ， 如 表 12-1 
所 示 。 
表 12-1 用 户 信息 登记 表 
字段 名 类 型 说 明 
ID INT 用 户 注 册 ID 
NAME VARCHAR(64) 用 户 姓名 
GENDER INT 性 别 
MOBILE VARCHAR(16) 手机 号 
QQ INT QQ 5 
EMAIL VARCHAR(64) 电子 邮箱 地 址 
BIRTHDAY DATE 生日 
CITY ID INT 所 在 城市 ID 
PROVINCE ID INT 所 在 省 ID 
COUNTRY ID INT 所 在 国家 ID 














表 12-1 中 记录 的 信息 其 实 本 身 就 是 用 于 描述 用 户 的， 它们 都 是 画像 
的 标签 。 虽 然 这 些 信息 比较 有 限 ， 但 是 已 经 足够 对 用 户 做 一 定 程度 的 区 
分 。 根 据 性 别 可 以 区 分 男女 属性 ， 根 据 所 在 地 区 《国家 ， 和 省， 市 ) 可 以 
区 分 地 域 ， 根 据 生 日 可 以 区 分 年 龄 段 ， 根 据 手机 号 可 以 区 分 手机 号 所 在 
地 区 。 这 已 经 比 完全 无 法 判别 一 个 用 户 ID 的 拥有 者 具备 什么 属性 强 了 不 


LRI SANZ 








少 





但 是 不 足 之 处 我 们 很 快 就 发 现 了 ， 我 们 往 下 看 。 


1 信息 的 丰富 性 





上 述 Table_User 表 中 的 信息 实在 是 太 有 限 了 ， 能 够 只 根据 所 在 城 
市 、 生 日 《年龄 段 ) 、 手 机 号 《所 在 地 ) 、 性 别 束 把 用 户 区 分 开 吗 ? 我 
们 也 不 要 过 于 悲观 。 





如 末 你 所 处 的 行业 ， 所 提供 的 服务 是 比较 粗 久 的 ， 那 是 否 做 这 些 区 
分 丽 怕 不 重要 ， 因 为 即便 这 些 信息 不 相同 ， 也 没有 提供 区 别 化 服务 的 余 
地 。 这 样 的 行业 不 胜 枚 举 ， 如 电力 行业 、 炬 并 行业 、 钢 铁 行业 等 。 这 些 
行业 的 用 户 数 量 ( 一 般 用 户 都 是 企业 〉 和 产品 种 类 是 相对 单一 的 ， 和 对 
大 数据 技术 热衷 的 互联 网 行业 、 零 售 业 、 保 险 业 、 广 告 业 等 产业 大 相 径 
隆 ， 几 乎 没有 可 比 性 。 所 以 用 户 男 像 对 这 类 行业 的 吸引 力 不 大 ， 这 应 该 
不 难 理解 。 


如 果 你 所 处 的 行业 是 对 服务 和 用 户 体 验 敏 感 的 ， 那 么 这 些 信息 的 价 
值 就 太 有 限 了 。 而 且 从 未 来 趋势 来 看 ， 区 别 化 服务 对 传统 粗 久 型 行业 的 
冲击 也 在 不 断 增强 。 只 要 区 别 化 服务 给 企业 市 来 的 效 荔 比 带 来 的 成 本 
高 ， 区 别 化 服务 就 是 一 个 苋 争 的 利器 。 这 也 是 很 多 公司 愿意 论 大 力气 想 
办 法 去 做 用 户 画 像 的 比较 重要 的 原因 。 











对 于 用 户 结构 化 标签 比较 好 的 补充 是 采用 一 些 其 他 的 补充 信息 表 
Table_User_Other_Information 来 做 补充 描述 ， 如 表 12-2 所 示 。 


表 12-2 ”补充 信息 表 


























字段 名 类 型 说 明 

ID INT 用 户 注册 ID 

LOGIN FREQUENCY INT 每 周 登录 次 数 

LAST VIEW CATEGORY ID INT 上 次 浏览 商品 类 别 
FREQUENT BUY CATEGORY IDI INT 经 党 购买 的 商品 种 类 TOPI 
FREQUENT BUY CATEGORY ID2 INT 经 常 购买 的 商 品种 类 TOP2 
FREQUENT BUY CATEGORY ID3 INT 经 常 购买 的 商品 种 类 TOP3 
AVERAGE MONTHLY PURCHASE DECIMAL 平均 月 消费 额 


对 于 购物 类 网 站 可 以 再 建立 类 似 Table_User_Other_Information 的 表 
来 记录 用 户 的 消费 行为 ， 这 张 表 的 记录 内 容 对 用 户 画 像 的 帮助 是 更 一 
允 近 了 用 户 的 “真实 模样 "， 在 对 用 户 品 质 做 区 分 时 有 更 大 的 提示 作用 。 
那么 这 些 值 怎么 来 ?显然 是 从 各 次 的 购买 记录 中 统计 而 来 ， 这 些 统计 的 
方法 对 于 会 SQL 语言 的 开 及 人 员 来 说 还 是 很 简单 的 。 











知道 了 用 户 的 性 别 、 手 机 归属 地 、 生 日 (年 龄 段 ，”、 所 在 城市 ， 以 
及 登录 频繁 程度 、 经 和 贡 购 买 的 商品 种 类 、 平 均 消 费 额 度 等 信息 ， 是 不 是 
己 经 比 “未 画像 * 之 前 有 了 更 清晰 的 样 貌 呢 ?那么 还 能 把 用 户 画 得 更 清晰 
一 些 吗 ? 还 是 可 以 的 。 











如 果 和 希望 把 国 像 做 到 极致 ， 还 可 以 进行 更 深 一 步 的 描述 。 例 如 ， 服 
装 类 Table_User_Buy_Clothes， 如 表 12-3 所 示 。 


表 12-3 ”服装 类 





字段 名 类 型 说 明 




















ID INT 用 户 注 册 ID 

FREQUENT SIZE VARCHAR(16) 常 买 的 衣服 SIZE 大 小 
FREQUENT COLOR IDI INT 常 买 的 衣服 颜色 TOPI 
FREQUENT COLOR ID2 INT 常 买 的 衣服 颜色 TOP2 
FREQUENT COLOR ID3 INT 常 买 的 衣服 颜色 TOP3 

















字段 名 类 型 说 明 
FREQUENT STYLE IDI INT 常 买 的 衣服 风格 TOP1 
FREQUENT STYLE ID2 INT 常 买 的 衣服 风格 TOP2 
FREQUENT STYLE ID3 INT 常 买 的 衣服 风格 TOP3 


这 里 可 以 继续 增补 类 似 Table_User_Buy_Clothes 的 细 类 描述 ， 一 个 
用 户 购买 衣服 ， 那 么 他 “喜欢 ”〈 至 少 是 经 常 ) 买 的 颜色 是 什么 ， 红 色 、 
黄色 、 蓝 色 还 是 绿色 ? 经 常 买 的 衣服 风格 是 什么 ? 日 版 、 韩 版 、 英 版 还 
是 中 国 版 ? 不 只 是 衣服 ， 针 对 每 个 细 类 都 可 以 做 这 种 描述 ， 而 有 的 用 户 
肯定 是 茶 些 东西 买 得 多 而 其 他 东西 几乎 不 买 。 


这 类 的 统计 同样 可 以 利用 SQL 语 言 轻松 完成 。 


这 些 表 的 字段 都 是 标签 ， 而 且 是 结构 化 的 标签 ， 这 种 结构 化 的 标签 
很 好 用 ， 不 论 是 做 推荐 算法 ， 分 类 的 个 性 化 研究 ， 都 非常 方 
便 。 

2. 信 息 的 正确 性 





关于 信息 正确 性 的 问题 在 Table_User 表 中 就 比较 凸显 。 例 如 ， 所 在 
地 区 填写 是 不 是 准确 ，QQ 号 填写 是 不 是 准确 。 

















对 于 所 有 用 户 自己 填写 的 信息 来 说 ， 有 的 可 以 靠 验证 信息 来 进行 确 
认 ， 如 EMAIL 和 MOBILE， 这 些 信息 可 以 通过 信息 回执 码 的 方式 来 进行 
确认 是 否 为 有 效 。 所 在 地 这 种 字段 可 以 考虑 用 外 带 的 卫 库 来 进行 辅助 确 
认 ， 但 是 耻 库 也 不 是 很 准确 ， 至 少 实时 性 也 是 有 限 的 ， 所 以 也 会 有 对 照 
查询 结果 同样 不 准确 的 情况 。 








对 于 无 法 清晰 界定 填写 信息 是 否 准确 无 误 的 情况 不 要 塌 观 ， 客 观 世 
界 本 身 就 是 在 不 停 变 化 的 ， 只 是 一 个 动态 中 的 瞬间 平衡 状态 而 已 ， 完 类 
的 准确 本 身 就 是 一 种 理想 ， 只 要 在 一 定 合理 的 范围 内 逼近 准确 就 够 了 。 














与 其 一 味 地 纠结 用 户 填 写 的 信息 是 不 是 准确 ， 不 如 把 目光 和 精力 更 
多 地 投入 到 更 “客观 ”的 数据 上 去 ， 如 购买 记录 和 浏览 记录 ， 分 析 这 些 真 
实 存 在 的 行为 要 比 停留 在 用 户 “ 主 观 ” 填 写 的 一 些 数 据 字段 有 意义 得 多 。 











12.2.2” 非 结构 化 标签 


1. 免 费 软件 真 的 免费 吗 








除了 结构 化 的 标签 ， 还 有 很 多 互联 网 公司 对 用 户 画 像 尝 试 使 用 非 结 
构 化 标签 的 画像 方法 。 


非 结 构 化 的 标签 通常 不 对 标签 的 属性 进行 明确 区 分 ， 前 面 的 例子 里 
的 每 个 表 的 字段 有 确切 含义 ， 这 种 就 是 对 标签 的 含义 做 明确 的 种 类 区 


分 。 














然而 互联 网 产品 本 身 的 特殊 性 造成 很 多 时 候 无 法 对 用 户 做 这 种 属性 


确定 的 画像 标签 。 


举 个 最 典型 的 例子 ， 我 们 在 PC 或 者 手机 上 都 在 用 着 各 种 免费 软 
件 。 和 破解 的 软件 就 不 担 了 ， 融 说 真 的 免费 软件 吧 ， 如 QQ、 暴 风 影 首 、 
360 安 全 卫士 .…… 其 中 有 不 少 免费 软件 做 得 还 是 相当 出 色 的 。 


公司 不 是 慈善 机 构 ， 公 司 的 收入 从 何 而 来 呢 ? 


熟悉 互联 网 经 济 模式 的 人 都 知道 ， 这 种 模式 束 是 俗称 “ 诗 毛 出 在 猪 
身上 ”的 互联 网 经 济 模式 一 一 处 在 上 游 的 广告 主 投资 ， 处 在 中 游 的 软件 
做 载体 ， 处 在 下 游 的 用 户 做 接受 对 象 。 广 告 主 花 钱 做 广告 ， 人 免费 软件 的 


开发 商 进行 广告 投放 ， 而 免费 使 用 软件 的 用 户 则 必须 忍受 或 多 或 少 让 人 
抓 狂 的 广告 (图 12-2) 。 


网 络 广告 





图 12-2 网络 广告 


细 说 来 ， 这 个 行业 的 环节 不 只 有 3 个 角色 ， 而 是 4 个 角色 。 


告 主 : 人 花 钱 为 自己 的 品牌 或 者 产品 做 广告 的 人 。 


媒体 : 广告 位 提供 商 ， 如 电视 台 、 网 站 、 杂 志 ， 在 刚刚 的 例子 


里 ， 上 共有 弹 窗 能 力 的 软件 都 是 媒体 。 





广告 商 : 本 质 上 就 是 中 介 ， 帮 广告 主 找 媒体 广告 位 ， 帮 媒体 找 广 
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受众 : PC 和 手机 终端 用 户 。 


这 里 的 广告 商 作用 是 很 大 的 ， 因 为 让 广告 主 直 接 面 对 每 个 免费 软件 
商 去 投放 广告 显然 对 于 他 们 来 说 成 本 过 高 了 ， 倒 不 如 交 给 这 些 对 投放 更 
为 专业 的 广告 商 ， 由 他 们 根据 广告 主 的 预算 和 投放 意愿 进行 有 效 的 投 
放 。 





而 广告 商 们 收取 了 大 量 的 广告 素材 〈 图 片 、 视 频 、 链 接 ) 和 经 费 以 
后 会 怎么 做 昵 ? 如 何 去 帮 广告 主 采购 合适 的 广告 位 呢 ? 现在 比较 流行 的 
是 使 用 RTB (Real Time Bidding， 实 时 广告 竞价 ) 系统 进行 广告 竞价 ， 
如 图 12-3 所 示 。 





这 看 上 去 有 点 像 淘 宝 的 秒杀 ， 只 是 淘宝 的 秒杀 是 店主 挂 出 有 限 的 货 
品 ， 在 某 一 个 具体 的 时 间 开 放 ， 然 后 买 家 蜂拥 而 上 抢购 先 到 移 得 。 然 而 
RTB 的 店主 是 SSP (Supply Side Platform， 供 应 方 平 台 ) ， 也 就 是 广告 
位 提供 者 ， 他 们 卖 的 是 展示 的 广告 位 ， 这 些 广告 位 通过 自动 竞价 的 复杂 
策略 ， 最 后 决定 投放 哪 一 家 广告 商 的 广告 资源 。 抢 购 者 是 广告 主 ， 只 是 
这 个 过 程 是 广告 商 代劳 的 ， 广 告 商 帮助 他 们 做 了 苋 价 策略 并 根据 策略 进 
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图 12-3 广告 的 运作 流程 





这 种 广告 的 展示 和 反击 收费 是 不 一 样 的 ， 点 击 的 收费 要 比 单纯 展示 
的 收费 高 很 多 。 很 多 免费 软件 其 实 一 直 在 绞 尽 脑汁 试图 根据 用 户 的 终端 
使 用 习惯 做 一 个 画像 一 一 尽管 这 个 用 户 男 像 男 的 可 能 不 是 用 户 的 个 人 而 
征用 户 的 计算 机 。 














“暴力 弹 窗 ? 是 一 种 在 技术 手段 上 显得 毫 无 建树 的 投放 方式 ， 它 太 直 
接 ， 太 暴力 ， 更 让 人 感觉 不 爽 的 是 它 里 面 承载 的 广告 内 容 很 多 是 无 法 催 
化 一 次 点 击 的。 广告 在 暴力 弹 窗 上 无 区 别 地 投放 会 让 人 感觉 像 在 每 次 进 
到 家 门口 ， 都 能 发 现在 门口 来 了 一 张 硕 大 的 小 广告 ， 上 面 赫 然 写 着 “得 
了 脚气 怎么 办 ? 找 xx 老 军医 ， 一 针 就 灵 。” 而 且 天 天 如 此 。 或 者 是 在 一 
个 使 用 管道 天 然 气 的 小 区 ， 门 口 天 天 有 人 举 个 大 牌子 ， 挡 住 一 半 的 路 ， 
上 面 写 着 "煤气 饶 便 宜 换 ?”， 你 不 得 不 每 次 都 跟 他 说 一 名 “内 开 ， 让 我 过 
去 ”( 图 12-4) 。 








图 12-4 ”暴力 弹 窗 





这 两 种 方式 显然 会 让 人 觉得 做 广告 的 人 欠 考 虑 ， 如 果 这 种 广告 是 按 
被 用 户 看 了 多 少 次 来 收费 的 话 ， 我 是 广告 主 也 肯定 不 会 找 他 们 做 广告 
的 。 最 起 码 的 ， 做 这 种 广告 还 是 要 有 一 定 的 针对 性 ， 尤 其 是 这 个 换 熔 气 
镀 的 ， 起 码 应 该 去 一 个 非 天 然 气 管道 的 小 区 才 会 有 点 效果 。 





2. 不 犯法 就 画 男 看 


好 在 各 种 软件 在 用 户 PC 和 手机 里 还 做 一 些 “ 画 画 看 ”的 动作 ， 男 什 
A? 当然 是 给 用 户 画 像 。 


软件 在 用 户 的 PC 和 手机 里 都 能 做 什么 ? MARS BOR E. SORE 
在 PC 或 手机 局 动 后 就 被 加 载 入 内 存 则 几乎 是 什么 都 可 以 做 的 ， 一 切 行 
为 都 可 以 。 还 好 ， 有 很 多 信息 安全 类 的 软件 ， 如 金山 毒霸 、 卡 巴 斯 基 
等 ， 会 监控 这 些 软件 的 行为 ， 如 果 这 些 软件 轻易 打开 本 地 的 文件 翻 看 里 
面 的 内 容 ， 或 者 记录 在 键盘 上 录入 的 信息 ， 那 么 动 辑 是 直接 告警 ， 严 重 


的 就 会 直接 删除 软件 内 容 。 此 外 ， 在 法 律 层 面 ， 对 用 户 敏感 信息 的 收集 
以 及 对 此 产生 的 损失 ， 软 件 的 制作 人 是 负 有 连带 责任 的 。 况 且 ， 这 些 软 
件 本 身 在 合法 商业 领域 的 应 用 价值 的 长 远 性 远 比 做 这 些 偷偷 摸 摸 的 下 三 
小 扫 摘 赚钱 得 多 (图 12-5)。 
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图 12-5 画像 软件 


有 哪些 东西 是 可 以 用 来 给 一 个 PC 或 者 手机 做 画像 的 呢 ? PC 和 手机 
上 所 有 带 描述 作用 的 信息 都 可 以 。 软 件 列表 、 软 件 使 用 记录 、 浏 览 器 访 
问 记 录 等 都 是 比较 典型 的 用 户 画 像素 材 。 


注意 这 里 有 一 个 信息 差异 化 的 问题 。 


就 用 户 画 像 本 身 来 说 ， 只 是 在 做 用 户 的 描述 ， 如 果 每 全 PC 的 软件 
列表 、 软 件 使 用 记录 、 浏 览 器 访问 记录 都 一 样 ， 那 么 用 户 画 像 还 是 可 以 
做 的 ， 只 是 “ 夯 * 出 来 的 用 户 之 间 “ 长 得 ”差不多 。 








可 以 尝试 把 PC 上 的 软件 列表 、 软 件 使 用 记录 、 浏 览 器 访问 记录 都 
抓 取 下 来 ， 然 后 做 一 个 关键 词 的 分 词 工作 。 或 许 会 分 析出 很 多 类 似 的 记 
录 片 段 ， 用 NoSQL 的 Key-Value 形 式 记 录 ， 如 表 12-4 所 示 。 


表 12-4 记录 片段 


KEY VALUE 
WI. eu. HUS. FR ARO, THRE, iPhone 6s Plus, /)2K Note3, !EHf£, UGG, 淘宝 








这 是 对 MAC 为 “37-25-CD-C1-2E-72” 的 一 台 终 端 设备 的 这 些 记录 做 
了 抓 取 ， 并 提取 关键 词 得 到 的 。 软 件 列 表 越 长 ， 浏 览 器 访问 记录 越 多 ， 
这 样 的 关键 词 留 下 的 也 就 越 多 ， 这 就 是 最 为 “粗糙 ”的 一 种 用 户 画 像 方 
式 。 与 其 说 是 画像 ， 不 如 说 是 用 户 感 兴趣 的 主题 的 一 些 提示 。 当 “37-25- 
CD-C1-2E-72” 的 广告 位 《 弹 窗 〉 再 次 请 求 广告 资源 时 ， 这 些 事先 收集 的 
记录 很 有 可 能 帮助 和 这 些 关 键 词 有 关 的 产品 广告 获得 这 个 广告 位 ， 谁 党 
握 了 这 些 数据 谁 就 有 可 能 对 这 个 MAC 地 址 进行 一 些 辅助 性 的 描述 ， 即 
提供 画像 。 因 此 广告 请 求 算法 会 有 一 些 倾向 性 的 弹 窗 ， 如 弹出 一 个 冲锋 
衣 的 广告 ， 弹 出 一 部 高 级 玛瑙 象棋 的 广告 ， 或 者 弹出 一 个 高 端 汽车 模型 
的 广告 等 。 所 以 ， 这 些 标 签 谁 会 有 兴趣 购买 呢 ? DMP (Data 
Management Platform， 数 据 管理 平台 ) 会 有 可 能 帮助 DSP 提 高 一 定 的 转 














化 率 ， 当 然后 面 的 匹配 算法 有 可 能 会 非常 复杂 。 


3. 标 签 的 权重 





这 些 标签 的 打 法 原理 大 致 如 此 ， 但 是 并 不 是 所 有 的 免费 软件 都 一 定 
会 无 差别 地 搜集 这 些 数 据 ， 因 为 搜集 这 些 数 据 并 进行 分 析 同 样 是 有 成 本 
的 。 





除了 这 些 免 费 软件 的 提供 两 ， 还 有 其 他 商家 会 做 用 户 画 像 操 作 吗 ? 
有 的 ， 而 且 有 的 商家 做 这 些 事情 还 是 手 到 擒 来 非常 方便 ， 如 电信 运营 
DE 





由 于 在 我 国电 信 征 属于 国家 管制 的 领域 一 一 实名 制 注 册 ， 电 信 运 营 
商会 天 然 获得 一 些 用 户 的 信息 ， 如 身份 证 号 、 手 机 号 ， 这 些 信息 就 天 然 
且 准 确 地 存在 。 除 此 之 外 ， 电 信 运 营 商 还 有 很 多 优势 是 普通 的 软件 所 不 
具备 的 ， 电 信 运 营 商 有 链 路 ， 有 基站 ， 有 核心 路 由 交换 设备 。 所 以 ， 家 
里 的 电脑 或 者 手机 一 旦 连 上 网 ， 那 么 所 有 的 访问 记录 其 实 都 能 够 被 运营 
商 获 得 ， 只 要 运营 商 愿意 ， 基 站 会 记录 手机 所 在 的 位 置 以 及 此 刻 的 时 
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尔 会 经 常 在 什么 时 间 出 现在 哪个 基站 附近 ， 你 喜欢 上 什么 网 站 ， 
天 上 网 时 间 多 长 ， 你 喜欢 浏览 哪些 淘宝 、 天 猫 或 者 京东 的 货品 专栏 ， 
手机 里 有 哪些 APP 应 用 ...... 这 些 信 息 ， 除 了 HTTPS 加 密 的 访问 以 外 ， 
营 商 几乎 可 以 做 到 了 如 指 掌 。 曾 经 和 我 同学 聊天 一 一 他 现在 是 某 电信 


— 





B oz 
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营 商 的 大 数据 部 门 主管 ， 据 说 该 运营 丙 在 做 用 户 画 像 的 时 候 做 得 十 分 细 
致 ， 包 括 基本 属性 、 位 置 属性 、 交 往 属 性 、 家 性 属性 、 账 户 属性 、 终 站 
属性 、 行 为 属性 、 消 费 属性 、 接 触 属性 、 应 用 使 用 属性 、 流 量 属性 、 内 
容 属 性 等 ， 非 常 丰 晤 ， 最 多 的 情况 下 兽 经 给 有 的 用 户 打 标签 多 达 3000 多 
个 ! 人 移 不 管 打 得 是 不 是 合理 ， 起 码 是 有 了 这 么 多 不 同 的 标签 描述 




















标签 和 标签 之 间 应 该 有 区 别 地 看 符 吗 ? 我 的 观点 是 ， 应 该 做 以 区 
别 ， 让 它 更 准确 地 描述 用 户 。 





回头 再 看 刚刚 的 例子 ，MAC“37-25-CD-C1-2E-72”， 后 面 的 标签 有 
暴风 影音 ， 游 戏 ， 棋 牌 ， 汽 车 模型 ， 冲 锋 衣 ，iPhone 6s Plus， 小 米 Note 
3， 非 月 传 ，UGG， 淘 宇 。 从 中 能 看 到 浏览 顺序 吗 ? 能 看 到 对 这 些 不 同 
主题 的 关心 程度 吗 ? (关于 怎么 来 做 分 词 后 面 在 第 14 章 里 会 介绍 ) 不 大 
能 看 出 来 。 这 其 实 好 比 给 一 个 人 画像 ， 画 了 一 个 虹 子 很 像 ， 画 了 一 只 耳 
条 很 像 ， 画 了 两 只 眼睛 很 像 ， 但 是 没有 放 在 一 起 ， 松 散 地 放 了 一 厂 。 











这 样 的 画像 其 实 还 是 有 很 多 改进 的 余地 。 


其 一 ， 想 想 画 像 这 种 东西 。 我 自己 3 岁 时 的 画像 ， 和 我 上 个 月 的 画 
像 ， 哪 个 和 现在 更 像 一 些 ? 显然 是 后 者 。 所 以 ， 距 离 现 在 时 间 越 近 肥 现 
的 一 些 特质 应 该 和 久远 时 间 友 现 的 特质 区 别 对 等 ， 更 强调 近 距 离 时 间 的 
特质 而 模糊 远 期 的 特质 。 


其 二 ， 每 个 人 的 画像 中 都 有 不 同 的 形象 ， 有 的 人 臂膀 硕 壮 ， 有 的 人 
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该 在 画像 中 有 上 所 体现 。 


其 三 ， 数 字 化 等 级 标注 。 在 前 两 点 里 面 所 说 的 程度 的 区 别 是 要 用 数 
字 做 标记 区 分 的 。 还 是 那 句 话 ， 没 办 法 做 到 数字 化 的 东西 是 不 能 计算 也 
不 能 比较 的 。 


改良 后 的 用 户 标 签 Table_User_Tag 如 表 12-5 所 示 。 


#212-5 改 展 后 的 用 户 标签 


VALUE 
暴风 影音 : 3 
游戏 :2 
HL. 3 
汽车 模型 : 9 
冲锋 衣 : 5 
iPhone 6s Plus: 9 
小 米 Note 3: 6 
I: Hf. 2 
UGG: 1 
淘宝 : 3 


KEY 


37-25-CD-C1-2E-72 





用 0~9 这 10 个 数字 来 标记 程度 ，0 代 表 很 低 ，9 代 表 很 高 。 这 样 的 一 
个 标记 会 比 原先 没有 做 数字 标记 更 有 层次 感 。 这 种 标记 的 依据 可 以 有 很 
多 ， 最 简单 的 标记 方式 可 以 用 以 下 策略 。 


BEAT LP SARI Ee A i a IR DEAT Ud, ERE 
出 一 堆 新 的 关键 词 列 表 ， 把 它 和 库 里 的 关键 词 列 表 比 对 。 新 发 现 的 关键 
词 标记 为 5， 已 有 的 关键 词 的 标记 数字 +1， 原 来 有 而 当天 没有 更 新 的 天 
键 词 -1。 这 种 策略 可 以 作为 一 种 备 选 的 方式 。 也 就 是 ， 头 一 次 发 现 的 天 
键 词 就 是 5， 一 旦 5 天 没 友 现 这 个 关键 词 束 标 记 为 0 或 者 干脆 遗 态 挥 删 
除 ) ， 因 为 这 是 一 个 偶然 性 的 关键 词 ， 新 词 连续 4 天 被 发 现 ， 热 度 被 升 
为 9.…... 这 些 数 值 是 可 以 调整 的 ， 调 整 之 后 的 结果 无 非 是 遗 起 的 周期 会 
变化 ， 或 者 热 词 升温 的 节奏 会 变化 而 已 。 























权重 标记 的 和 肛 略 是 一 种 比较 主观 的 标记 方法 ， 因 为 权重 标记 人 策略 说 
到 底 是 一 种 人 与 的 算法 ， 既 然 是 算法 ， 那 就 是 加 工 的 规则 ， 是 人 告诉 机 
器 要 怎么 做 ， 这 显然 是 主观 的 做 法 。 其 实 不 只 是 权重 标记 带 有 主观 因 
素 ， 就 连 画 像 本 身 都 带 有 主观 因素 。 扫 描 用 户 访问 记录 时 分 词 是 否 恰 
当 ， 是 人 否 要 对 浏览 中 的 中 英文 或 同义词 进行 对 照 转译 ， 是 人 否 要 对 每 个 浏 
览 的 页 面 的 性 质 进行 区 分 ， 是 否 要 对 众多 浏览 页 面 之 间 的 关联 做 挖掘 来 
判断 新 的 关键 词 。 这 些 方法 的 取 人 铭 者 是 在 考量 成 本 和 收益 而 已 ， 并 无 确 
切 的 对 错 可 言 ， 所 以 仍然 是 主观 性 占 主 导 的 方式 。 


























12.3 利用 用 户 男 像 


12.3.1 割裂 型 用 户 画 像 


前 面谈 论 了 用 户 男 像 怎 么 来 做 。 在 前 面 的 场景 里 其 实 是 割裂 地 进行 
用 户 画 像 一 一 设想 自己 在 一 种 “公平 " “无 偏 癌 ” 、“ 无 目的 ”的 环境 中 对 
用 户 进行 描述 ， 而 望 对 用 户 的 描述 尽量 做 到 根据 客观 观察 到 的 情况 做 客 
观 性 的 描述 。 这 种 画像 就 是 割裂 的 用 户 画 像 。 








这 种 国 像 的 好 处 是 计算 相对 比较 简单 ， 而 且 因 为 画像 内 容 和 未 来 的 
应 用 目的 无 关 ， 所 以 画像 的 应 用 场景 也 会 更 加 丰富 。 整 拿 刚 刚 说 的 电信 
公司 画像 的 例子 来 次， 这 样 的 国 像 是 要 比 同 一 个 用 户 在 某 个 垂直 电 丙 网 
站 里 的 画像 应 用 场景 更 广 的 《所 谓 垂 直 电 商 就 是 指 只 经 营 某 一 方面 产品 
的 罕 范 围 电 商 ， 如 只 经 营 母 归 产品 ， 只 经 营 各 种 书籍 ， 或 者 只 经 营 数 码 
产品 等 。 而 与 垂直 电 商 相对 的 融 是 京东 、 淘 宝 这 种 综合 性 的 电 商 了 ) 。 

















12.3.2 ”紧密 型 用 户 画 像 


本 章 最 前 面 举 的 例子 里 ， 在 一 个 购物 网 站 通过 购物 记录 的 分 析 来 给 
用 户 打 标签 画像 是 紧密 的 用 户 画 像 一 一 这 个 “紧密 ?是 相对 前 面 “ 割 裂 ”而 
言 的 。 男 像 直接 来 自 于 营业 中 的 行为 ， 画 像 的 结果 也 直接 应 用 于 营业 内 
容 。 尤 其 是 对 于 刚刚 提 到 的 这 种 垂直 电 商 ， 它 的 画像 紧密 程度 会 更 高 。 











12.3.3 到底“ 像 不 像 ” 


“FRAY BR BERR AMAR? ”这 个 问题 是 所 有 初试 用 户 画 像 的 技术 人 员 
都 会 问 的 一 个 问题 。 我 们 可 能 都 曾经 历 这 样 的 纠结 ， 做 了 画像 之 后 ， 怀 
疑 自 己 画 得 不 够 “ 像 ”。 如 有 果 你 还 在 纠结 ， 下 面 就 说 说 我 的 看 法 。 





1… 像 不 像 ? 跟 谁 比 
谈论 像 和 不 像 时 是 有 比较 对 象 的 。 


真实 在 纸 上 画 一 个 人 的 肖像 ， 拿 去 和 照片 比 ， 肉 眼 直 观 是 能 看 出 像 
不 像 的 。 在 用 户 信 息 库 里 的 用 户 画 像 也 要 有 对 比 的 对 象 ， 问 题 是 ， 这 个 
对 象 能 捕捉 到 吗 ? 未 必 能 。 








能 够 收集 到 的 用 户 相关 信息 实际 是 非常 片面 和 有 限 的 ， 即 便 可 以 购 
买 到 其 他 第 三 方 的 用 户 画 像 库 进 行 对 比 也 不 一 定 能 比 对 出 结果 。 因 为 收 
集 的 标签 维度 未 必 一 致 ， 维 度 一 致 内 容 不 一 致 也 同样 不 能 断言 是 目 己 的 
库 错 误 还 是 对 比 库 错 误 。 所 以 这 种 对 比 本 刁 就 可 能 是 没 标准 的 比较 。 
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信息 反馈 对 于 紧密 型 用 户 画 像 来 说 通常 比较 有 效 ， 因 为 反馈 会 很 直 
接 而 且 及 时 ， 针 对 性 强 。 也 就 是 说 ,，“ 画 得 不 准 ” 没 关系 ， 再 观察 再 画 就 
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这 种 情况 一 般 出 现在 系统 “ 冷 局 动 * 时 ， 用 户 画 像 库 里 没有 任何 可 以 
参考 的 凭据， 标签 打出 来 也 是 片面 的 。 


在 这 种 紧密 型 的 用 户 男 像 系统 中 ， 通 肖 会 非 第 依赖 信息 有 反馈， 因为 
画像 本 里 也 束 是 为 了 提高 产能 转化 紊 。 在 电 商 网 站 上 ， 用 户 画 像 束 是 为 
了 最 终 的 用 户 购物 引导 更 为 有 效 ， 而 引导 是 不 是 有 效 的 验证 周期 是 极 短 
的 ， 甚 至 一 两 天 就 能 验证 完毕 一 一 男 得 不 准 大 不 了 过 两 天 再 重新 试 着 男 
一 次 。 这 种 迭代 的 思想 方式 比 花费 很 长 时 间 只 为 画 一 个 完美 的 用 户 男 像 


容易 实现 得 多 。 














还 记得 原来 我 在 做 公开 课 的 时 候 ， 曾 经 做 过 一 个 比喻 。 


德国 二 战 时 期 最 大 的 战列舰 是 介 斯 麦 号 战列舰 ， 满 载 排水 量 5 万 吨 
左右 ， 主 炮 口 径 381mm， 最 大 射程 36.5km。 战 舰 安装 了 “FuMo 23” 火 控 
雷达 ， 有 效 探 测 距离 25km， 远 不 及 其 火炮 的 最 大 射程 。 人 的 肉眼 在 上 晴 
好 的 海面 上 最 远 也 不 过 能 看 到 30km 左 右 的 地 方 有 目标 而 已 。 如 果 想 准 
确 知道 25~36.6km 这 个 距离 上 的 目标 有 没有 被 炮火 击 中 ， 就 只 能 出 动 其 
搭载 的 Ar196 侦 察 机 了 。 一 轮 齐 射 以 后 ,侦察 机 报告 射击 偏差 ， 重 新 调 
整 射 击 角度 。 如 此 反复 。 这 种 战术 在 很 多 陆军 战斗 中 的 炮兵 + 侦 穴 兵 的 
配合 中 也 屡试不爽 。 














这 种 方式 殊 和 我 们 刚才 说 的 多 次 画像 类 似 ， 因 为 我 们 的 感知 精度 残 


是 这 么 有 限 。 


3.0.1% 已 经 很 多 了 








有 很 多 比较 成 功 的 用 户 画 像 系统 ， 能 够 把 转化 率 提高 0.3% 左 右 ， 或 
者 也 能 到 0.19% 一 一 大 概 就 是 这 种 感觉 : 原来 没有 用 用 户 画 像 系 统 时 ， 广 
告 推荐 系统 转化 率 大 概 是 19%， 使 用 了 用 户 男 像 系统 后 ， 转 化 率 变 成 了 
1.1%。 听 起 来 这 个 数字 好 像 挺 让 人 失望 的 一 一 废 了 这 么 大 力气 才 提 高 这 
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但 是 别 筷 了 整个 市 场 的 容积 是 很 大 的 ，2014 年 度 ， 淘 宝 的 全 年 成 交 
额 为 1.172 万 亿 元 人 民 币 ， 如 果 能 够 提高 仅仅 0.1% 的 销售 额 是 多 少 呢 ， 
大 约 11.72 亿 元 人 民 币 。 


iiMedia Research 〈 艾 媒 咨 询 ) 在 2015 年 8 月 发 布 了 《2014 一 2015 年 
中 国 DSP 行 业 发 展 研究 报告 》。 报 告 显示 ，2015 年 中 国 网 络 广告 市 场 规 
模 将 达到 2123.4 亿 元 。2123.4 亿 元 人 民 币 ， 提 高 0.1% 也 有 2.1234 亿 元 人 
民 币 ， 这 也 不 是 一 个 小 数字 ! 


124. Jo 


用 户 男 像 这 个 概念 只 需 理解 即 可 。 每 个 公司 有 不 同 的 用 户 画 像 的 男 
法 ， 只 要 掌握 基本 的 方法 ， 不 怕 试 错 ， 用 户 画 像 库 是 完全 有 可 能 收集 成 
为 一 个 对 业务 有 足够 帮助 的 参考 系统 的 。 








用 这 些 标签 和 这 些 标签 对 应 的 用 户 行 为 ， 可 以 通过 逻辑 回归 或 者 归 
纳 树 算 法 进行 用 户 行为 的 预测 ， 也 可 以 由 紧密 型 用 户 画 像 直 接 成 为 协同 
过 小 的 参考 对 象 。 大 胆 尝试 ， 不 要 怕 试 错 ， 用 户 画 像 不 难 。 


第 13 半 ”推荐 算法 
推荐 算法 在 现在 很 多 电子 商务 网 站 中 普遍 应 用 。 


推荐 系统 作为 现在 众多 电 商 系统 、 内 容 分 发 系统 等 网 站 的 必要 子 系 
统 ， 越 来 越 受 到 运营 者 的 重视 。 推 荐 系统 核心 要 解决 的 问题 是 提高 转化 
率 ， 也 就 是 经 过 分 析 ， 要 猜测 茶 一 个 用 户 更 喜欢 什么 商品 ， 更 可 能 购买 
么 商品 ， 或 者 更 喜欢 哪些 歌曲 、 文 章 ， 在 系统 中 要 进行 适当 形式 的 推 
， 如 页 面 际 窗 、 和 营销 邮件 、 短 信息 等 。 





> 
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13.1 推荐 思路 


在 电子 商务 网 站 中 有 这 样 的 场景 ， 就 是 系统 期 望 通过 分 析 《〈 或 者 说 
BAD 给 用 户 推荐 一 些 商 品 ， 从 而 提高 购物 的 转化 率 。 这 种 推荐 的 现象 
当然 首先 还 是 出 现在 实体 店 中 ， 会 经 名 在 超市 或 者 商场 里 看 到 那些 卖 酸 
奶 的 小 妹妹 会 老 远 就 招呼 小 女孩 过 去 尝 尝 她 们 的 新 品 酸奶 ， 或 者 卖 肉 的 
会 招呼 路 过 的 大 第 大 妈 过 来 买 新 鲜 的 肉 。 这 本 里 就 是 人 目 己 在 利用 推荐 
系统 的 思路 ， 起 码 卖 肉 的 小 贩 会 认为 把 鲜 肉 推 荐 给 大 第 大 妈 会 比 推荐 给 
小 朋友 有 着 更 局 的 转化 率 。 











忆 体 来 说 ， 推 荐 系统 作为 一 个 确定 目的 的 系统 一 一 提高 转化 率 ， 有 
很 多 的 线索 可 以 去 做 。 因 为 只 要 有 片段 性 的 信息 ， 就 有 提高 转化 率 的 可 
能 性 ， 只 要 转化 率 比 推荐 系统 不 参与 的 时 候 高 ， 推 荐 系统 应 该 说 就 是 有 
改 的 ， 只 是 不 同方 式 的 有 效 程度 有 可 能 会 非常 薛 殊 。 





d 


SO 


其 实 推荐 系统 中 流泪 比较 多 ， 每 个 公司 每 个 项 目 具体 落实 起 来 也 是 
千差万别 。 在 没有 介绍 协同 过 滤 个 思路 之 前 ， 先 想 想 看 ， 利 用 已 经 学 过 
的 什么 方式 可 以 尝试 做 这 种 推荐 呢 ? 


13.1.1 Wn r4 2s 


nf UL ZA A th as DUET 2S BU IESU PETER. HST aR 
户 所 有 购买 物品 的 分 布 特性 ， 统 计 该 用 户 购 买 物品 的 分 布 情况 


如 某 用 户 ， 他 在 某 网 站 一 共 购 买 过 100 件 商品 ， 其 中 70 件 是 数码 产 
品 或 小 家 电 ，20 件 是 登山 用 品 ，10 件 是 其 他 各 类 用 品 。 


在 70 件 数码 产品 中 ， 有 40 件 是 各 类 音像 制品 ，5 件 是 手机 ，5 件 是 笔 
记 本 电脑 ， 还 有 30 件 是 U 盘 、 鼠 标 、MP3、iPad、 音 箱 、USB 充 电器 等 
各 种 外 设 。 











20 件 登山 用 品 里 有 3 件 帐 篷 、3 件 登山 服 、3 双 登山 靳 、3 个 登山 包 、 
3 支 登 山 杖 、3 顶 登山 帽 、 还 有 2 只 专用 手电 。 








FARHA mM ERT, AFR, PE AKE HKH mE 


ATAU R, FESSOR PA rain, HEERA GL 
看 他 购买 的 记录 的 偏重 ， 可 以 说 购买 音像 制品 的 概率 是 最 高 的 ， 在 全 部 
的 100 件 货物 里 占 了 40%， 其 他 类 别 的 分 析 也 是 同 理 。 








所 以 这 种 情况 下 ， 有 理由 相信 ， 为 这 个 用 户 推荐 一 个 音像 制品 要 比 
什么 都 不 推荐 是 有 更 高 的 转化 率 的 ， 刚 刚 的 统计 结果 就 是 根据 。 这 种 做 








法 从 思路 上 应 该 是 没有 问题 的 ， 但 是 同样 地 这 些 转化 率 是 要 进行 量化 
的 ， 只 需要 记录 推荐 的 商品 有 多 少 确实 被 购买 了 就 知道 这 种 方法 的 可 靠 
性 有 多 高 了 。 





13.1.2 ”利用 搜索 记录 


不 管 是 在 一 些 网 站 的 广告 位 上 ， 还 是 在 和 泵 东 商 城 、 淘 宝 等 网 店 上 ， 
都 有 过 类 似 的 经 历 ， 残 是 在 浏览 费 中 搜索 过 的 东西 ， 会 从 广告 位 上 显示 











出 来 。 在 网 店 里 ， 网 店 会 根据 用 户 搜 索 过 的 关键 词 猜测 用 户 想 要 买 条 些 
产品 ， 所 以 在 列 出 产品 列表 的 同时 也 会 在 右 侧 给 用 户 推 荐 一 些 商品 (图 


13-1) o 
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图 13-1 淘宝 网 


即便 在 什么 都 没有 输入 的 情况 下 单 击 “ 搜 索 "按钮 ， 淘 宝 网 还 是 在 右 
侧 为 用 户 推荐 了 一 些 商品 ， 下 面 也 列 出 了 一 个 推荐 的 商品 列表 ， 并 且 还 





注 明 是 根据 * 黄 钻 爱 买 店铺 ”和 “回头 客 爱 买 店铺 ”这 些 店铺 的 热卖 商品 来 
推荐 的 〈 图 13-2) 。 
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图 13-2 商品 推荐 





在 其 他 网 站 的 广告 位 上 也 会 发 现 一 些 有 趣 的 事情 ， 就 是 曾经 在 百度 
或 者 其 他 搜索 引擎 上 搜索 过 的 东西 会 出 现在 这 些 网 站 的 广告 位 上 ， 或 者 
这 个 网 站 的 广告 位 上 会 出 现 一 些 与 当前 页 面 内 容 的 关键 词 相 关 的 内 容 推 
荐 。 这 是 网 站 广告 位 的 JavaScript 代 码 读 取 了 浏览 器 的 本 地 Cookies OB 
常 可 以 用 来 存储 浏览 器 上 的 表单 信息 、 用 户 名 、 搜 索 关 键 词 等 信息 ) 和 
当前 页 面 的 文本 信息 ， 并 做 了 相应 的 关键 词 提 取 ， 最 后 根据 这 些 关 键 词 
来 猜测 用 户 可 能 感 兴趣 的 内 容 再 推荐 到 广告 位 上 。 








应 该 说 这 两 种 方法 的 猜测 方式 都 不 能 算 错 ， 只 有 哪个 性 价 比 更 好 一 
说 。 





但 是 有 时 候 也 会 看 到 一 些 让 人 感觉 推荐 系统 很 傻 的 地 方 ， 就 是 搜索 
并 购买 了 一 些 产 品 之 后 它 还 在 不 停 地 进行 最 类 似 产 品 的 推荐 。 就 是 我 们 
平时 在 网 上 购物 的 时 候 经 党 看 到 现象 ， 买 了 鞋子 还 在 推荐 尉 子 ， 这 道 可 
以 理解 ， 因 为 畦 子 这 种 很 可 能 一 个 人 会 买 不 止 一 双 。 有 的 推荐 就 显得 很 
不 智能 ， 比 如 我 来 了 电视 还 推荐 电视 ， 买 了 电 冰 箱 还 推荐 电 冰 箱 。 即 便 
是 在 网 站 能 够 得 知 我 购买 电视 和 空调 的 成 交 记录 的 情况 下 仍然 这 样 做 ， 
确实 让 我 们 觉得 系统 很 弱智 。 但 是 这 也 还 是 可 以 理解 ， 毕 苋 系 统 智能 的 
程度 是 一 个 改进 的 过 程 ， 这 种 根据 购买 产品 对 象 的 保有 率 去 对 推荐 内 容 
做 调 优 的 答 试 应 该 不 是 它 最 优先 改进 的 内 容 。 








目前 协同 过 滤 公 认 的 应 该 是 两 种 思路 ， 第 一 种 是 利用 早期 大 家 研究 
比较 多 的 邻居 方法 。 而 邻居 方法 中 也 有 两 种 视角 ， 我 们 分 别 来 看 一 下 。 


第 一 种 ， 基 于 用 户 。 也 就 是 说 ， 系 统 通 过 分 析 一 个 用 户 和 哪些 用 
户 的 特征 比较 像 ， 然 后 看 看 这 些 用 户 喜 欢 买 哪 类 的 商品 ， 再 从 这 些 丙 品 
里 挑 出 一 些 推荐 给 该 用 户 。 


第 二 种 ， 基 于 商品 。 也 就 是 说 ， 系 统 通 过 分 析 用 户 的 购买 行为 来 
判断 用 户 喜 欢 的 商品 类 型 ， 然 后 从 那些 用 户 喜欢 的 商品 类 型 里 挑 出 一 些 
推荐 给 用 户 。 


Hil 4 PR A User-based CF CUser-based Collaborative Filtering) ， 或 者 
叫 基 于 用 户 的 协同 过 滤 ， 后 者 称 为 Item-based CF (Item-based 
Collaborative Filtering) ， 或 者 叫 基于 商品 的 协同 过 滤 。 








除了 邻居 方法 外 ， 目 前 研究 得 比较 多 是 力 外 一 类 方法 ， 也 是 第 二 种 
思路 一 一 基于 模型 的 推荐 算法 ， 如 果 读 者 有 兴趣 可 以 在 网 上 搜索 阅读 


Matirx factorization techniques for recommender systems 这 篇 论文 。 


本 章 重 点 介绍 邻居 方法 作为 思路 的 协同 过 滤 算 法 ， 这 种 算法 也 被 称 
作 基 于 邻 域 的 推荐 算法 ， 是 一 种 非常 经 典 的 推荐 算法 思路 。 


13.2 User-based CF 


当 一 个 用 户 进入 一 个 网 店 时 ， 作 为 网 店 系统 找到 那些 和 该 用 户 兴 趣 
喜好 ) 类 似 的 人 ， 然 后 看 看 他 们 喜欢 什么 ， 就 给 该 用 户 推荐 什么 也 许 
是 一 种 不 错 的 选择 。 





第 一 步 ， 看 能 不 能 找到 这 样 的 用 户 。 用 户 与 商品 偏好 如 表 13-1 所 

















Ze 
> = 
3€13-1 HP 5r m t 

RP ID 白酒 红酒 女装 男装 运动 鞋 
00001 10 7 2 4 

00002 8 7 8 5 8 
00003 8 6 4 5 
00004 3 8 8 3 
00005 5 4 4 

00006 0 2 9 7 




















假设 能 够 得 到 这 样 一 个 用 户 仿 好 的 列表 ， 请 注意 两 点 。 








第 一 ， 这 个 列表 系统 中 本 号 是 不 存在 的 ， 是 需要 对 用 户 的 行为 进行 
分 析 后 量化 得 到 的 。 其 中 的 某 个 小 格子 里 的 数字 是 这 个 用 户 对 该 商 
品 “ 兴 趣 程度 ”的 一 个 量化 值 ，0 为 没 兴趣 ，10 为 非常 有 兴趣 。 量 化 的 方 
法 有 很 多 种 ， 而 且 没 有 所 谓 最 正确 的 算法 。 得 到 茶 个 用 户 对 茶 关 别 产品 
的 兴趣 可 以 从 他 给 产品 的 反馈 打分 上 去 看 ， 也 可 以 从 他 购买 的 频繁 程度 
上 去 看 ， 也 可 以 从 他 浏览 的 频繁 程度 上 去 看 。 在 度量 这 个 值 时 可 以 只 用 


其 中 的 一 种 方法 ， 或 者 对 这 些 方法 都 进行 量化 然后 加 权 平 均 得 到 。 例 

如 ， 可 以 设计 这 样 的 算法 : 当 一 个 用 户 购买 了 一 类 商品 ， 这 个 商品 的 兴 
趣 程度 就 +1， 当 他 浏览 一 次 这 个 商品 ， 兴 趣 程度 就 +0.1， 当 他 给 商品 反 
馈 以 10 分 制 打分 一 次 ， 这 个 商品 的 兴趣 程度 就 对 应 加 这 个 分 数 的 20%， 

如 购买 白酒 一 瓶 并 打 10 分 ， 那 就 在 白酒 一 栏 +2， 加 到 10 后 则 不 再 累加 。 
这 可 以 作为 一 个 策略 。 





第 二 ， 商 品 的 分 类 是 可 以 做 调整 的 。 究 竟 是 使 用 和 白酒、 红酒 、 女 装 
这 样 的 大 类 ， 还 是 具体 使 用 某 一 个 更 小 的 分 类 ， 其 至 精确 到 单 品 是 值得 
权衡 的 。 在 使 用 算法 的 过 程 中 一 直 在 做 权衡 ， 计 算 的 效率 、 占 用 的 空间 
和 推荐 的 质量 的 获得 ， 这 些 其 实 是 要 在 实践 中 不 断 比 对 来 做 调整 的 。 这 
种 调整 ， 包 括 刚 才 的 集 略 调整 ， 是 可 以 用 AB 测 试 来 进行 对 比 的 ， 关 于 


AB 测 试 后 面 将 会 具体 介绍 。 











假设 确实 通过 一 定 的 策略 得 到 了 这 样 一 张 表 ， 这 张 表 里 是 有 一 些 空 
项 的 ， 这 代表 这 个 项 目 系统 还 没有 任何 依据 来 判断 兴趣 如 何 ， 因 为 系统 
也 不 知道 是 用 户 没有 兴趣 所 以 才 不 浏览 ， 还 是 没 来 得 及 浏览 ， 这 两 个 概 
念 的 区 分 实在 是 太 上 暧昧 了 。 





以 用 户 00001 为 研究 对 象 ， 要 找到 和 他 兴趣 最 接近 的 人 ， 怎 么 做 比 
较 好 呢 ? 这 里 需要 引入 一 个 概念 ， 叫 做 余弦 相似 性 。 





说 到 余弦 可 能 大 家 不 卫生 ， 就 是 高 中 时 候 学 的 cosine 函 数 





cos GO 。 初 中 的 时 候 学 余弦 是 在 直角 三 角形 (图 13-3) 里 ， 一 个 角 的 
余弦 值 束 古 对 边 长 度 与 斜 边 长 度 的 比 ，x 的 取 值 范围 是 0*~90°。 


C 


[13-3 ”直角 三 角形 








到 了 高 中 就 有 了 新 的 定义 ， 并 且 x 的 取 值 范围 可 以 是 在 正 负 无 穷 之 
间 了 ， 而 且 单 位 换 成 了 弧度 。 这 里 用 的 也 是 cos 这 个 余弦 函数 的 定义 ， 
即 两 个 癌 量 在 空间 的 夹 角 。 

a-b 


cos(a, b) = lal 


式 中 ，a 和 b 都 是 同 量 ， 如 打听 着想 象 不 出 来 ， 那 我 们 来 个 图 说 明 一 


图 13-4 ”余弦 


如 图 13-4 所 示 ， 有 两 个 三 角形 ， 这 两 个 三 角形 都 是 直角 三 角形 ，a 
向 量 和 b 向 量 分 别 是 两 个 三 角形 的 斜 边 。 假 设 下 面 的 三 角形 左 侧 底 角 为 
30*， 上 面 的 三 角形 左 侧 底 角 为 60"， 那 么 是 可 以 知道 a 向 量 的 长 度 为 2， 
而 a 表 示 为 (3,，1) ，b 向 量 的 长 度 也 是 2， 表 示 为 (1，V3) ， 这 也 就 是 两 个 
向 量 的 顶点 在 平面 直角 坐标 系 里 的 坐标 位 置 。 














用 a 和 b 的 回 量 坐标 求 a 和 b 夹 角 大 小 ， 代 入 上 面 的 公式 : 
TE $ 
la J W (v3 J «P xJP « 


查 反 三 角 函 数 表 ， 可 以 知道 是 30° 角 的 余弦 值 ， 所 以 a 和 b 向 量 的 
夹 角 为 30>。 这 个 例子 在 图 上 也 能 直接 看 出 来 是 30>， 印 证 起 来 方便 一 


Ss. 





cos(a,b) = 








inan 


— o 


cos(a, b) = tac 


b 
a} 15) 这 个 公式 里 ，a'b 就 是 两 个 向 量 的 x、y 维 度 各 自 做 了 乘 
积 再 加 和 ， 下 面 的 lal'|b| 算 陈 其 实 是 两 个 同 量 线段 的 长 度 ， 即 勾 股 定理 ， 


x? +y? o 





a 和 b 两 个 向 量 在 空间 上 只 要 方向 一 致 ， 大 小 不 论 是 否 相 同 ， 都 会 得 
到 cos (a, b) =1， 而 方向 相反 ， 则 cos (a, b) =-1， 有 兴趣 的 话 我 们 可 
以 用 别 的 值 来 验算 一 下 也 无 妨 。 





再 看 刚刚 的 例子 ， 把 用 户 在 一 些 不 相干 的 商品 类 别 的 爱好 当做 一 个 
空间 向 量 ， 把 每 个 商品 类 别 作为 一 个 维度 ， 就 像 刚 才 的 x 和 y 坐 标 那 样 。 
我 们 试 着 求 一 下 00001 这 个 用 户 和 00002 这 个 用 户 已 知 部 分 的 爱好 相似 程 
B. 
10x8+7x7+2x8+4x5 80449416420 ogo 


10? +7? +2? 442 x48 +77 48245? M69xV202 


因为 知道 最 相似 的 是 1， 最 不 相似 的 是 -1， 所 以 这 个 相似 度 还 是 很 


cos(00001,00002) = 








同 理 也 能 够 求 出 00001 用 户 和 其 他 任何 一 个 用 户 的 兴趣 相似 程度 。 


之 后 设置 一 个 相似 的 阔 值 ， 如 0.8、0.85..……: 或 者 其 他 任何 一 个 值 ， 
看 看 相似 度 超过 这 个 浆 值 的 用 尸 都 有 什么 购物 喜好 ， 把 他 们 喜好 购买 的 


东西 推荐 给 00001 用 户 作为 推荐 方案 即 可 。 这 就 是 一 种 思路 最 为 朴素 的 
基于 用 户 的 协同 过 渡 算 法 思路 。 


扩展 一 下 ， 除 此 之 外 还 可 以 考虑 这 个 用 户 和 用 户 之 间 相 似 的 癌 量 还 
能 怎么 设计 。 有 用户 属 性 表 如 表 13-2 所 示 。 





表 13-2 ”用户 属 性 表 





RP ID 
x 





或 许 在 一 些 银行 或 者 理财 产品 售卖 的 机 构 会 有 这 样 的 一 种 列表 ， 利 
用 这 种 列表 同样 也 能 够 去 观察 哪些 用 户 之 间 更 相似 ， 然 后 找到 相似 的 用 
户 ， 再 把 这 些 用 户 比较 喜好 的 产品 推荐 给 他 。 方 法 有 很 多 ， 后 面 将 会 介 


绍 。 





13.3 Item-based CF 








除了 刚才 介绍 的 基于 用 户 的 协同 过 小 以 外 ， 再 来 看 一 下 基于 商品 的 
协同 过 小 。 





基于 物品 的 协同 过 滤 算 法 最 早 是 由 着 名 的 电 丙 公司 亚 瑟 壕 提出 的 。 
这 种 算法 给 用 户 推荐 那些 和 他 们 之 前 喜欢 的 商品 相似 的 商品 。 但 是 ， 这 
种 算法 和 前 面 的 基于 用 户 的 协同 过 滤 算 法 不 一 样 一 一 它 并 不 是 要 建立 一 
个 商品 属性 的 矩阵 来 计算 物品 之 间 的 相似 上 度 。 其 实 想 想 也 知道 这 种 方式 
很 可 能 行 不 通 ， 一 来 是 由 于 商品 之 间 的 属性 相差 较 大 ， 做 起 来 可 能 会 比 
较 困难 ， 二 来 是 由 于 计算 量 太 大 难以 实现 。 所 以 这 个 算法 主要 通过 分 析 
用 户 的 行为 来 计算 物品 之 间 的 相似 度 。 




















一 句 话 概括 就 是 这 样 :“ 有 很 多 人 喜欢 商品 A， 同 时 他 们 也 喜欢 商品 
B， 所 以 A 和 B 应 该 是 比较 类 似 的 商品 。” 这 就 是 整个 算法 的 核心 思路 。 


计算 起 来 可 以 分 成 以 下 两 个 步 又 。 


(1) 计算 商品 之 间 的 相似 度 。 


(2) 根据 物品 的 相似 度 和 用 户 的 偏好 来 给 用 户 生 成 推荐 列表 。 


这 里 同样 用 到 了 余弦 相似 性 的 概念 ， 但 是 公式 略 有 不 同 : 


N(An B) 


cos( A, B) = —————— 
N(A)- N(B) 





解释 一 下 ， 如 宁 计 算 丙 品 A 和 商品 B 的 相似 性 ， 那 么 就 计算 这 个 丙 
值 ， 分 子 是 同时 喜欢 A 和 B 两 个 商品 的 用 户 数量 ， 分 母 是 喜欢 A 的 用 户 数 
量 和 喜欢 B 的 用 户 数 量 的 乘积 的 平方 根 。 





如 果 要 得 到 产品 和 用 户 喜好 数量 的 关系 ， 计 算 过 程 如 下 。 
用 户 00001: RER Fh EER 

用 户 00002: 扑 死 牌 、 兵 乓 球 、 乒 乓 球 扫 

用 户 00003: 乒乓 球 、 乒 乓 球 担 

用 户 00004: 围棋 、 扑 殉 牌 


用 户 00005: eth. EER AER. fhe he! 





这 是 一 个 文娱 用 品 商 店 的 销售 记录 ， 记 录 了 每 一 个 用 户 购买 的 产品 
内 容 ， 这 里 只 用 5 个 用 户 来 做 一 个 演示 。 


首先 要 分 别 得 到 每 个 用 户 购买 物品 的 邻接 和 矩阵， 如 用 户 00001 购 物 
邻接 矩阵 如 表 13-3 所 示 。 


表 13-3 FA 0000174577] 48 2245 [e 


商品 名 称 A Bt 扑克 牌 篮球 乒乓 球 乒乓 球拍 围棋 


足球 














Er Fe BR 





m ERA 





围棋 
足球 




















这 个 和 窍 阵 就 是 根据 刚刚 看 到 的 用 户 00001 的 购买 记录 得 到 的 ， 由 于 
象棋 、 扑 殉 牌 和 篮球 同时 出 现在 他 的 购物 列表 里 ， 所 以 “象棋 和 扑 死 
hh. "SROBURMISER". “了 扑 死 牌 和 伐 球 ”两 两 “邻接 ”， 也 就 是 说 这 些 标注 1 
的 小 格子 代表 这 两 种 一 起 在 一 个 人 的 购物 记录 里 出 现 过 一 次 一 一 注意 买 

过 就 算 ， 可 不 是 必须 出 现在 同一 次 购物 篮 里 ， 这 一 点 和 关联 分 析 时 所 用 


的 Apriori 算 法 的 场景 是 不 同 的 。 
同样 能 够 得 到 其 他 几 个 人 的 购物 邻接 矩阵 。 
用 户 00002 购 物 邻 接 和 矩阵 如 表 13-4 所 示 。 


表 13-4” FA 0000254) 45 2245 BE 


商品 名 称 象棋 


扑克 牌 篮球 mE | 乒乓 球拍 | ”围棋 


足球 








1 1 








1 1 
乒乓 球拍 





围棋 























足球 


用 户 00003 购 物 邻 接 窍 阵 如 表 13-5 所 示 。 





313-5 用户 00003 购 物 邻 接 和 矩阵 





乒乓 球拍 围棋 












象棋 
扑 殉 牌 
篮球 
乒乓 球 
乒乓 球拍 
围棋 



































用 户 00004 购 物 邻 接 窍 阵 如 表 13-6 所 示 。 


表 13-6 用户 00004 购 物 邻 接 和 矩阵 
商品 名 称 象棋 乒乓 球拍 Fal EH: 足球 
象棋 
扑克 牌 
(ER 
乒乓 球 
乒乓 球拍 
围棋 
































用 户 00005 购 物 邻 接 窍 阵 如 表 13-7 所 示 。 


表 13-7 ”用户 00005 购 物 邻 接 和 矩阵 














商品 名 称 Fro 足球 
象棋 1 
Tot 1 





篮球 





(5E) 














商品 名 称 象棋 th oe MEER 乒乓 球 乒乓 球拍 围棋 足球 
乒乓 球 

Er Ec d 

围棋 1 1 1 
足球 1 1 1 























所 有 的 这 种 邻接 矩阵 都 是 沿 对 角 线 对 称 的 。 





下 一 步 把 这 些 和 矩阵 “ 营 加 * 在 一 起 ， 即 将 每 一 个 矩阵 的 每 个 对 应 的 方 
格 数 字 相 加 ， 最 后 得 到 如 表 13-8 所 示 的 中 间 窍 阵 C。 





表 13-8 ”中 间 和 矩阵 C 

















商品 名 称 象棋 扑克 牌 篮球 丘 乓 球 fe Fe SRA Fs HL 足球 
象棋 2 1 1 1 
th oe he 2 1 1 1 2 1 
NEER 1 1 

乒乓 球 1 2 

乒乓 球拍 1 

围棋 1 2 1 
足球 1 1 1 




















从 这 个 中 间 和 矩阵 里 ， 可 以 看 到 同时 喜欢 象棋 和 扑克 牌 的 有 2 个 人 ， 
同时 喜欢 乒乓 球 担 和 乒乓 球 的 有 2 个 人 ， 同 时 喜欢 围棋 和 象棋 的 有 1 个 
人 .……: 由 于 和 窍 阵 是 对 称 的 ， 所 以 读 右 上 方 的 三 角形 就 足够 了 。 





这 时 如 有 果 对 任意 两 个 商品 的 相似 度 做 评估 ， 如 计算 象棋 和 畦 棋 的 相 
似 程度 ， 套 用 刚才 的 公式 : 


N(A n B) 


JN(A)- N(B) 


cos( A, B) = 





分 子 是 同时 喜欢 围棋 和 象棋 的 人 ， 下 面 两 个 值 N CAO MN (B) 就 
征 喜 欢 围棋 和 喜欢 象棋 的 人 一 一 这 两 个 值 要 从 前 面 的 购物 记录 里 得 到 。 


cos( A, B) = 





象棋 和 围棋 的 相似 度 约 为 0.5。 


再 试 算 一 下 乒乓 球拍 和 乒乓 球 的 相似 度 : 


cos( 4, B) — 





x2 


HE 


说 明 相 似 度 极 高 ， 买 兵 乓 球 的 人 必 买 乒乓 球拍 ， 买 乒乓 球拍 的 人 必 


买 乒乓 球 。 


ER AmA) 如 表 13-9 所 示 。 


表 13-9 商品 相似 度 























商品 名 称 象棋 扑克 有 牌 篮球 乒乓 球 乒乓 球拍 围棋 足球 
象棋 0.82 0.71 0.5 0.71 
扑 殉 牌 0.82 0.5 0.35 0.35 0.71 0.5 

NEER 0.71 0.5 

乒乓 球 0.35 1 

乒乓 球拍 0.35 1 

围棋 0.5 0.71 0.71 
足球 0.71 0.5 0.71 














具体 在 做 推荐 的 时 候 可 以 这 样 使 用 。 














计算 完 中 间 和 矩阵 C 之 后 ， 当 要 对 一 个 用 户 做 推荐 时 ， 先 把 这 个 用 户 
的 历史 购买 记录 都 列 出 来 ， 假 设 有 n 个 购买 记录 。 然 后 对 这 个 列表 里 每 
一 个 产品 都 用 得 表 的 方法 得 一 次 相似 度 ， 这 样 会 得 到 n 个 列表 ， 每 个 列 
表 里 都 是 一 个 产品 和 其 对 应 的 相似 度 的 关系 。 把 这 n 个 列表 做 一 个 排 
序 ， 相 似 度 高 的 在 前 ， 相 似 度 低 的 在 后 。 如 果 要 推荐 3 个 商品 就 取 前 3 


个 ， 如 果 要 推荐 5 个 商品 就 取 前 5 个 。 


13.4 优化 问题 


1. 规 模 和 效率 


早 在 2012 年 时 京东 商城 的 商品 就 已 经 超过 100 万 种 单 品 了 ， 日 均 PV 
超过 5000 万 。 在 这 么 大 规模 的 环境 下 ， 使 用 Item-basedCF 算 法 会 出 现 一 
些 显而易见 的 问题 。 














如 果 有 100 万 种 商品 ， 每 种 商品 都 被 人 买 过 至 少 一 次 ， 那 么 会 产生 
一 个 100 万 x100 万 的 矩阵 ， 也 就 是 10000 亿 个 单位 的 表格 。 如 果 每 个 单位 
都 用 4 字 节 的 整数 来 计数 ， 光 这 个 表格 就 至 少 要 使 用 3.64TB 的 数据 一 一 
别 说 内 存 了 ， 硬 盘 放 都 困难 。 


其 实 不 妨 想 想 看 ， 这 些 商 品 也 许 确实 都 被 人 买 过 ， 但 是 什么 时 候 买 
的 ， 买 的 人 是 经 常 来 买 还 是 偶尔 洋 了 一 次 其 实 是 没有 做 任何 区 分 的 。 然 
而 在 一 个 购物 网 站 中 ， 应 该 更 重视 那些 在 网 站 经 常 购买 商品 的 人 ， 因 为 
这 些 人 才 是 真正 的 网 购 习 惯 者 ， 男 外 就 是 近期 被 人 购买 的 商品 ， 远 远 比 
那些 老 的 过 时 的 或 者 淘汰 的 商品 有 价值 。 那 么 真 的 应 该 挑 出 100 万 种 丙 
品 做 这 个 邻接 窍 阵 的 计算 吗 ? 未 必 ， 而 且 我 也 不 推荐 那样 做 。 可 以 尝试 
痢 只 从 活跃 用 户 的 购物 列表 去 找 候 选 产 品 ， 也 可 以 从 最 近 半 年 被 人 购买 
的 产品 中 找 候选 产品 ， 也 可 以 两 者 结合 来 进行 。 














2.48 tt X 
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样 性 的 问题 。 下 面 来 具体 看 一 个 例子 。 


假设 经 过 计算 共用 户 喜 欢 的 物品 里 有 3 本 不 同 的 书 ，3 件 不 同 的 衣 
服 ，3 盒 不 同 品牌 型 号 的 兵 乓 球 。 很 可 能 由 于 购买 乒乓 球 时 就 会 灭 乒 乓 
球 担 ， 导 致 进行 商品 相似 度 计算 时 ， 给 该 用 户 推 荐 的 商品 里 乒乓 球拍 的 
相似 度 总 是 最 高 的 ， 该 用 户 也 只 会 收 到 系统 关于 乒乓 球拍 的 商品 推荐 ， 
而 这 其 实 不 是 我 们 期 望 得 到 的 。 其 次 ， 那 些 热 门 商品 之 间 的 相似 度 也 会 
非常 高 ， 因 为 大 家 在 一 个 时 间 段 内 都 买 这 些 热门 商品 的 概率 比较 高 ， 所 
以 这 些 商 品 之 间 的 相似 度 计算 出 来 自然 就 比较 高 。 





我 们 期 望 的 不 是 一 个 高 度 收敛 的 推荐 算法 ， 而 是 商品 种 类 要 丰富 ， 
也 就 是 商品 的 履 盖 率 要 高 ， 要 保证 它 的 多 样 性 。 这 里 需要 用 到 一 个 物品 
相似 度 的 归 一 化 算法 。 





所 谓 归 一 化 就 是 把 商品 相似 上 度 矩 阵 做 如 下 变化 : 


1 V 





V V; z — 
J r : 
max w., 








也 就 是 对 每 一 行 的 相似 度 值 和 当前 行 的 最 大 值 计 算 一 个 比值 ， 把 这 
个 比值 当 作 新 的 结果 放 在 矩阵 里 ， 变 换 之 后 的 归 一 化 商品 相似 度 和 矩阵 如 
表 13-10 所 示 (商品 相似 度 -Norm) 。 


4213-10 IH — TR i AAU) EE BE 























商品 名 称 象棋 th oe he NER 乒乓 球 (| 乒乓 球拍 围棋 足球 
象棋 0.00 1.00 0.87 0.00 0.00 0.61 0.87 
th oa hi 1.00 0.00 0.61 0.43 0.43 0.87 0.61 
篮球 1.00 0.70 0.00 0.00 | 0.00 0.00 0.00 
Dr Ee BR 0.00 0.35 0.00 0.00 1.00 0.00 0.00 
be EC ERAH 0.00 0.35 0.00 1.00 0.00 0.00 0.00 
Hal tt 0.70 1.00 0.00 0.00 0.00 0.00 1.00 
足球 1.00 0.70 0.00 000 | 0.00 1.00 0.00 





























这 样 直 观 的 感觉 束 是 所 有 原来 相似 度 看 上 去 比较 低 的 值 都 被 拉 融 
了 ， 缩 小 了 兰 距 ， 这 其 实 是 对 刚刚 的 忧虑 在 算法 上 做 出 了 一 些 补偿 。 


这 种 补偿 的 思路 如 宋 没 有 理解 清晰 ， 可 以 看 如 下 补充 的 例子 。 


在 大 学 里 有 很 多 科目 的 考试 ， 而 对 于 科目 考题 难度 的 设计 通 种 比较 
难 把 握 。 每 一 年 会 由 于 招生 政策 的 变化 以 及 提 档 线 的 变化 导致 生源 质量 
不 同 ; 教材 体系 改革 会 导致 教材 难度 也 有 不 规律 的 波动 大 学 教师 的 教 
学 水 平和 风格 也 会 有 差异 等 。 这 么 多 不 同 的 因素 组 合 在 一 起 ， 就 有 可 能 
引发 一 些 奇 怪 的 现象 ， 如 茶 一 年 由 于 考题 设计 太 难 ， 导 致 整个 年 级 的 学 
生 最 高 分 才 59 分 ， 即 便 可 以 让 他 们 每 个 人 都 算 挂 科 一 次 ， 但 是 考试 的 选 
拔 特性 变 得 不 太 好 ， 考 生 之 间 的 档次 也 看 不 出 来 。 


这 里 可 以 进行 一 次 核算 ， 和 刚才 的 公式 一 样 ， 让 这 个 最 遇 分 的 59 分 
换算 为 100 分 ， 其 他 各 位 学 生 的 分 数 同样 做 这 种 换算 ， 那 么 就 是 套用 如 


y= =x 100 
l 59 





这 样 做 的 好 处 不 是 为 了 挽救 一 些 人 让 他 们 不 要 被 列 入 不 及 格 的 范 
畴 ， 而 是 把 原本 分 布 很 罕 的 一 个 分 数 区 间 拉 开 了 ， 让 分 数 和 分 数 、 人 和 
人 之 间 的 距离 感 更 好 ， 便 于 进一步 前 选 和 分 类 。 这 种 思路 在 算法 中 会 有 
很 多 地 方 有 体现 。 归 一 化 在 第 9 章 中 也 有 使 用 ， 作 用 是 很 相近 的 。 
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都 可 以 用 来 作为 推荐 系统 的 一 部 分 。 可 以 采用 在 本 章 中 提 到 的 协同 过 渡 
算法 ， 可 以 采用 基于 用 户 画 像 的 逻辑 回归 ， 也 可 以 使 用 关键 分 析 中 的 频 
繁 项 集 去 寻找 可 推荐 的 商品 。 








本 章 接触 到 一 个 新 的 度量 距离 的 手段 ， 就 是 使 用 余 粥 相似 度 来 进行 
度量 ， 这 和 以 前 介绍 的 用 欧 氏 距离 或 曼哈顿 距离 的 方法 是 大 不 一 样 的 。 
余弦 相似 度 用 的 是 夹 角 概念 ， 例 如 ， 张 三 买 了 5 双 皮 鞋 ， 又 买 了 5 双 球 
鞋 ， 这 样 在 〈 皮 鞋 ， 球 鞋 ) 这 两 个 维度 的 向 量 空间 中 可 以 用 (5，5) 来 
表示 ; 李 四 买 了 3 双 皮 鞋 ， 又 买 了 3 双 球 鞋 ， 就 用 (3，3) 来 表示 。 在 这 
种 情况 下 ， 可 以 认为 他 们 对 鞋 类 的 喜爱 程度 虽然 有 所 差别 ， 但 是 体现 出 
来 的 还 都 是 没有 什么 疑义 的 喜爱 ， 这 种 态度 是 明确 的 。 所 以 在 这 个 空间 
中 向 量 (5, 5) 和 向 量 (3，3) 实际 上 夹 角 是 0， 也 就 是 余弦 相似 度 为 1 
一 一 非常 相似 。 这 种 解释 要 比 求 出 的 欧 氏 距离 2V2 更 有 意义 ， 因 为 在 网 
氏 距 离 上 同 为 2V2 的 距离 ， 其 向 量 上 所 体现 出 来 的 对 不 同 物品 维度 的 倾 
向 恐怕 会 有 很 多 不 同 甚 至 是 相反 的 。 如 图 13-5 所 示 ，AB 线 段 用 来 表示 
242 的 距离 ， 一 象限 的 两 个 向 量 之 间 的 距离 是 2V2 ， 二 、 三 象限 的 两 个 
向 量 之 间 的 距离 仍然 是 2V2 ， 但 是 从 直观 上 看 ， 一 象限 的 两 个 向 量 的 方 
向 一 致 性 要 比 二 、 三 象限 这 两 个 向 量 的 方向 一 致 性 好 很 多 。 在 这 种 情况 
































下 是 不 应 该 做 出 距离 相等 的 判断 的 。 





图 13-5” 欧 氏 距离 不 能 体现 回 量 的 相似 程度 





在 实际 应 用 中 ， 要 注意 多 进行 摸索 ， 评 们 方法 的 有 效 性 和 对 比 测 
试 ， 并 作出 不 断 的 调整 ， 这 样 才能 使 得 算法 准确 程度 不 断 进 化 。 


第 14 章 ”文本 挖掘 


文本 挖掘 是 近 几 年 来 越 来 越 火 的 数据 挖掘 方 辣 。 











对 于 传统 的 结构 化 数据 挖 气 来 说 ， 文 本 挖掘 更 多 的 是 对 自然 语言 的 
分 析 ， 模 糊 性 强 ， 结 构 性 弱 ， 难 度 大 ， 一 直 都 是 挑战 的 方向 。 





文本 挖掘 一 般 来 说 是 从 大 量 文本 数据 中 抽取 事先 位 置 的 、 可 理解 
的 、 最 终 可 用 的 知识 的 过 程 ， 同 时 运用 这 些 只 是 更 好 地 组 织 信息 以 便 将 
来 参考 。 这 是 一 个 从 非 结构 化 的 文本 信息 中 寻找 知识 的 过 程 。 





14.1 文本 挖掘 的 领域 
文本 挖掘 一 般 来 说 有 以 下 7 个 主要 的 领域 。 


(1) 搜索 和 信息 检索 (Information Search, IR) : 存储 和 文本 文 
档 的 检索 ， 包 括 搜索 引擎 和 关键 字 搜 索 。 





(20 MARE: 使 用 聚 类 方法 ， 对 词汇 、 片 段 、 段 落 或 文件 进行 
分 组 和 归 类 。 





(3) 文本 分 类 : 对 片段 、 段 落 或 文件 进行 分 组 和 归 类 ， 在 使 用 数 
据 挖 掘 分 类 方法 的 基础 上 ， 通 过 训练 来 标记 示例 模型 。 








(4) Web 挖 据 : 在 互联 网 上 进行 数据 和 文本 挖 握 ， 并 特别 关注 网 
络 的 规模 和 相互 联系 。 





(5) 信息 抽取 (Information Extraction, IE) : 从 非 结 构 化 文本 中 
识别 与 提取 有 关 的 事实 和 关系 ， 从 非 结 构 化 或 半 结 构 化 文本 中 抽取 出 结 
构 化 数据 的 过 程 。 





(60 目 然 语 言 处 理 (Natural Language Processing，NLP) : 将 语言 
作为 一 种 有 意义 、 有 规则 的 符号 系统 ， 在 底层 解析 和 理解 语言 的 任务 
《如 词性 标注 ) ， 目 前 的 技术 主要 从 语法 、 语 义 的 角度 发 现 语言 最 本 质 
的 结构 和 所 表达 的 音义 。 








C7) 概念 提取 : 把 单词 和 短语 按 语 义 分 成 意义 相似 的 组 。 


以 上 每 一 个 概念 内 容 都 非常 多 ， 每 一 个 概念 都 能 写 一 本 书 甚至 儿 大 
本 书 ， 这 里 主要 对 文本 分 类 及 相关 的 问题 进行 讨论 。 





14.2 LERTE 


和 其 他 分 类 学 习 的 思路 相似 ， 拿 到 文本 的 样本 后 也 是 要 对 文本 进行 
样本 类 别 标记 ， 然 后 把 这 些 样本 交 给 计算 机 进行 学 习 。 


文本 分 类 中 训练 的 主要 工作 步骤 如 下 。 





接 做 向 量 标记 。 所 以 ， 拿 到 一 篇 文章 后 ， 通 常 第 一 步 是 做 分 词 。 而 后 通 
过 词义 以 及 词 与 词 的 逻辑 衔接 来 判断 语言 的 意义 或 情绪 。 








分 词 是 在 中 文 文本 处 理 中 遇 到 的 第 一 个 问题 ， 因 为 和 英文 不 一 样 ， 
中 文 是 没 办 法 用 空格 进行 分 词 的 。 所 以 最 早 在 中 文中 尝试 做 分 词 束 是 使 
用 类 似 碍 字典 的 办 法 ， 用 标点 把 文章 分 成 多 个 子 句 ， 在 每 个 字句 中 推进 
式 地 “ 查 词典 ?， 在 词 库 字 典 中 碍 到 的 完整 词 就 从 字句 中 拿 掉 ， 然 后 继续 
问 下 搜索 。 这 种 方式 已 经 淘汰 了 ， 因 为 它 的 查询 非常 机 械 而 且 不 准确 。 


























如 人 句子 “北京 大 学 是 所 老牌 大 学 。” 这 个 句子 如 果 按 照 这 么 机 械 的 划 
分 方法 束 会 被 划分 成 “北京 “大 学 “是 “所 “老牌 * 大 学 ”， 但 是 “北京 大 
学 ”其 实 是 一 个 专 有 名 词 ， 不 应 该 这 么 划分 。 








而 随 着 计算 机 技术 的 发 展 与 进步 ， 包 括 软件 和 硬件 方面 的 进步 ， 更 


为 科学 和 智能 的 分 词 方式 也 逐步 开发 出 来 ， 即 基于 统计 语言 模型 
(Statistical Language Model, SLMO 的 方式 。 其 中 比较 有 影响 力 的 是 中 
国 科学 院 计 算 所 开发 的 汉语 词法 分 析 系 统 NLPIR 汉 语 分 词 系统 ， 也 叫做 
ICTCLAS2013， 现 已 公开 发 布 供 中 文 文本 分 类 的 研究 使 用 。 这 是 一 个 开 
源 的 软件 系统 ， 读 者 有 兴趣 可 以 在 网 上 搜索 并 下 载 。 据 称 这 款 产 品 的 分 
词 精度 能 够 超过 98%， 中 国人 人 名 的 识别 召回 率 也 接近 98%。NLPIR 在 
网 上 是 有 开放 的 在 线 文 章 分 析 平 台 以 及 分 词 系 统 下 载 的 。 











补充 介绍 一 下 ， 召 回 率 (Recall) 和 精度 (Precise) 是 广泛 用 于 信 
奶 检 索 和 统计 学 分 类 领域 的 两 个 指标 ， 用 来 评价 结果 的 质量 ， 同 样 这 两 
个 指标 在 推荐 系统 也 得 到 了 广泛 应 用 。 其 中 召回 率 是 检索 出 的 相关 文档 
数 和 文档 库 中 所 有 的 相关 文档 数 的 比率 ， 衡 量 的 是 检索 系统 的 查 全 率 。 
精度 是 检索 出 的 相关 文档 数 与 检索 出 的 文档 总 数 的 比率 ， 衡 量 的 是 检索 
系统 的 查 准 率 。 








除 此 之 外 还 有 让 丁 解 牛 分 词 器 ， 这 是 一 歼 基 于 Lucene 的 中 文 分 词 器 
开源 软件 系统 ， 也 是 一 个 开源 的 分 词 器 系统 ， 不 少 熟 悉 Java 和 Lucene 的 
程序 员 应 该 都 对 此 比较 熟悉 ， 在 此 不 做 重点 介绍 ， 读 者 有 兴趣 可 以 自己 
AUF P. 


2. 文 本 表示 











文本 表示 其 实 就 是 文本 的 回 量 化 问题 ， 因 为 就 文本 本 喘 来 说 ， 计 算 





机 是 无 法 理解 其 含义 的 。 现 在 用 得 比较 多 的 模型 是 由 Gerard Salton fil 
McGill 于 1969 年 提出 的 同 量 空间 模型 (Vector Space Model, VSM) 。 


癌 量 空 间 模 型 的 基本 思想 是 把 文档 简化 为 特征 项 的 权重 为 分 量 的 问 
ERIR: (wo Wo ao W) ， 其 中 wi 为 第 i 个 特征 项 的 权重 ， 一 般 
选取 词 作为 特征 项 ， 权 重用 词 频 表示 。 词 频 分 为 绝对 词 频 和 相对 词 频 。 

绝对 词 频 ， 即 用 词 在 文本 中 出 现 的 频率 表示 文本 。 


相对 词 频 ， 即 为 归 一 化 的 词 频 ， 其 计算 方法 主要 运用 TF-IDF 公 式 


(Term Frequency-Inverse Document Frequency) . 





什么 是 归 一 化 呢 ? 在 第 13 章 中 也 提 到 过 归 一 化 的 问题 ， 就 是 从 绝对 
数量 转化 成 比例 的 一 种 思路 。 在 TF-IDF 算 法 中 ， 归 一 化 是 为 了 避免 长 文 
档 比 短文 档 拥 有 过 多 数量 的 词 频 而 采取 的 方式 。 举 例如 下 。 








词 频 CTE) 是 一 个 词语 出 现 的 次 数 除 以 该 文件 的 总 词语 数 。 假 如 一 
篇 文件 的 总 词语 数 是 100 个 ， 而 词语 “汽车 ”出现 了 5 次 ， 那 么 < 汽车 ”一 词 
在 该 文件 中 的 词 频 就 是 5/100=0.05 或 者 说 5%。 一 个 计算 文件 频率 
(IDF》〉 的 方法 是 测定 有 多 少 份 文件 出 现 过 “汽车 ”一 词 ， 然 后 除 以 文件 
集 里 包含 的 文件 总 数 。 所 以 ， 如 果 人 汽车 ”一 词 在 100 份 文件 出 现 过 ， 而 
文件 总 数 是 10000 份 ， 其 逆 回 文件 频率 就 是 lg (10000/100，=2。 最 后 的 
TEF-IDEF 的 分 数 为 0.05x2=0.1。 其 中 TF-IDEF 分 数 和 词 频 和 逆向 文件 频率 成 
TE 











也 就 是 说 ， 如 果 某 个 词汇 在 一 篇 文章 中 出 现 的 频率 TF 高 ， 并 且 在 其 
他 文章 中 很 少 出 现 ， 则 认为 这 个 词汇 有 很 好 的 类 别 区 分 能 力 ， 适 合用 来 
分 类 ; TF 表 示 该 词汇 在 文档 中 出 现 的 频率 ， 而 IDF 则 表示 ， 含 有 该 词汇 
的 文档 比例 越 低 IDF 越 大 ， 则 说 明 该 词汇 具有 越 好 的 类 别 区 分 能 力 。 














3. 分 类 标记 


分 词 和 分 词 权重 最 后 要 和 分 类 的 标签 之 间 产 生 一 个 映射 关系 。 而 描 
述 这 种 映射 的 过 程 是 需要 算法 来 实现 的 ， 可 以 用 概率 来 实现 ， 也 可 以 用 
基于 回 量 空间 的 回归 来 实现 。 利 用 的 算法 有 Rocchio 算 法 、 朴 素 贝 叶 斯 
分 类 算法 、K- 近 邻 算 法 、 决 策 树 算法 、 神 经 网 络 算法 和 文 持 癌 量 机 算法 
等 ， 下 面 就 对 每 种 算法 的 实现 原理 做 一 个 说 明 。 











JD 


14.2.1 ” Rocchio 算 法 





Rocchio 算 法 是 一 种 从 感性 上 非常 直观 的 文本 分 类 的 算法 。 


Rocchio 算 法 的 核心 思路 是 给 每 一 个 文档 的 类 别 都 做 一 个 标准 癌 量 
一 一 也 有 的 地 方 称 为 原型 器 量 ， 然 后 用 待 分 类 的 文档 的 问 量 和 这 个 标准 
器 量 比 一 下 余 弱 相似 度 ， 相 似 度 越 高 越 可 能 属于 该 分 类 ， 反 之 则 不 然 。 





例如 ， 在 东 新 闻 网 站 中 ， 和 希望 构造 一 个 目 动 的 文章 分 类 系统 ， 那 么 
先 收集 10000 个 样本 ， 然 后 由 人 给 每 篇 文章 划分 类 别 。 例 如 ， 有 “军事 
类 ”、“ 体 育 类 ”、“ 经 济 类 ”、“ 娱 乐 类 ”、“ 科 技 类 ”等 ， 每 一 篇 文章 都 有 至 
少 一 个 所 属 的 类 别 。 如 “军事 类 ”， 把 里 面 每 一 篇 文章 逐个 拿 出 来 做 分 词 
和 问 量 化 ， 这 样 最 后 “军事 类 ?里面 的 每 一 篇 文章 都 有 一 个 非常 长 的 癌 量 


模型 。 








文章 1: CUES, 0.05, “Hk, 0.03, it, 0.01, "ik, 
0.03', "BEA, 0.01, ZJ, 0.01', ...) 

文章 2: CHERYL, 0.03', HE, 0.01', "EJA, 0.02', HIW, 
0.01', Æ, 0.03', "PEAF, 0.02', ...) 

文章 3: CHIR, 0.02', "EE, 0.02" WPR, 0.02', "FR, 
0.01, "RI^É, 0.02', ha, 0.02', ...) 





后 面 还 可 以 有 很 多 的 文章 样本 。 








在 这 里 为 了 表示 方便 ， 维 上 度 和 它 的 权重 直接 标 在 一 起 ， 如 ' 坦 元 ， 


0.05' 表 示 “ 坦 克 ” 这 个 词 的 词 频 为 0.05。 














把 “军事 类 ?所 有 的 文章 进行 各 个 维度 的 平均 ， 也 就 是 对 每 篇 文章 中 
的 “坦克 ” “侵略 ” “战机 ”““ 雷 达 ” 等 词汇 的 词 频 进 行 平 均 ， 会 得 到 一 
个 诸如 这 样 的 向 量 : 军事 类 原型 向 量 : CHE, 0.010, Z, 

0.003', "KHL, 0.003', "Æ, 0.002", "HA, 0.003, ...) ， 这 个 向 量 
非常 长 ， 可 能 有 几 生 或 者 几 万 维 ， 可 以 把 这 个 原型 向 量 形象 地 称 为 “ 质 
心 ”。 读 者 应 该 也 注意 到 ， 在 文本 挖掘 中 使 用 的 向 量 和 前 面 在 多 维 向 量 
空间 一 章 所 介绍 的 向 量 有 所 不 同 。 在 第 7 章 中 的 向 量 通常 维度 比较 少 ， 
而 且 维度 的 值 或 为 实数 或 为 枚 举 。 而 在 文本 挖掘 中 用 来 描述 文章 的 向 量 
通常 因 文 章 的 不 同 而 不 同 ， 小 短文 也 有 几 百 个 维度 ， 长 文章 可 能 会 有 上 
万 的 维度 。 这 里 面 一 个 词 就 是 一 个 维度 ， 如 “坦克 ”“ 侵 略 ” “战机 ”等 
就 是 维度 的 名 称 ， 相 当 于 三 维 空间 的 x、y、z。 后 面 的 0.010、0.003、 
0.002 等 值 是 向 量 维度 的 值 ， 在 0 和 1 区 间 内 。 









































当 有 一 篇 新 的 文章 要 进行 分 类 时 ， 同 样 进行 分 词 和 辐 量 化 ， 也 标记 
成 回 量 和 词 频 的 形式 。 之 后 束 顺 理 成 章 了 ， 就 是 问 量 和 疝 量 求 余弦 相似 
性 的 计算 了 。“ 军 事 类 ”、“ 体 育 类 ”、“ 经 济 类 ”“ 娱 乐 类 ”等 这 些 文章 类 
别 各 目 都 有 一 个 原型 问 量 ， 新 的 文章 和 它们 逐个 比较 ， 和 谁 相似 性 越 
mo EET. 




















余弦 相似 性 怎么 计算 呢 ? 来 看 以 下 公式 : 


SU ESO Tire 
CO5(O) = ee o 





个 公式 和 在 第 13 章 里 接触 到 的 余弦 相似 性 的 计算 规则 非常 相似 ， 
ASPs (tea le, CRF, sE AWE es, ，s， 
，...，Sn ，C 向 量 各 自 的 维度 是 c/ ，c, ，.…，cn 。 最 后 cos (0) 越 接 近 1 
就 说 明 越 相似 ， 越 接近 0 就 说 明 越 不 相似 ， 注 意 这 里 面 没 有 小 于 0 的 情 
况 。 











Rocchio 算 法 还 有 一 种 改进 的 版 本 ， 在 这 个 版 本 里 ， 某 一 类 文革 不 
仅 有 正 样本 计算 而 来 的 原型 向 量 〈 正 向 量 ) ， 还 有 根据 负 样 本 《〈 非 本 类 
ME) 计算 而 来 的 负 疝 量 。 在 原型 向 量 计算 的 过 程 中 ,希望 它 尽量 徘 近 
正 样本 而 远离 负 样 本 。 

















在 做 所 有 的 文本 分 类 实验 之 前 ， 先 要 做 一 个 操作 ， 就 是 从 网 上 下 载 
一 些 文本 作为 训练 样本 ， 在 这 里 选用 20Newsgroup 提 供 的 文本 信息 。 它 
的 官方 网 站 网 址 是 http:/qwone.com/~jason/20Newsgroups/ ， 读 者 有 兴趣 
可 以 再 尝试 访问 该 网 站 阅读 更 多 的 相关 信息 。 











from sklearn.datasets import fetch 20newsgroups 

from sklearn.feature extraction.text import CountVectorizer 
from sklearn.feature extraction.text import TfidfTransformer 
from pprint import pprint 

newsgroups train = fetch 20newsgroups.: 


subset-'train'» 


pprint < 


list: 


newsgroups train.target names)» 


#20 个 主题 


['alt.atheism', 


'comp.graphics' 


'comp.os.ms-windows.misc', 


'comp.sys.ibm.pc.hardware', 


'comp.sys.mac.hardware'., 


'comp.windows.x'. 


'misc.forsale',. 


'rec.autos', 


'rec.motorcycles' 


'rec.sport.baseball'. 


'rec.sport.hockey', 


"sci.crypt', 


'sci.electronics' 


"sci.med', 


'sci.space', 


"soc.religion.christian', 


'talk.politics.guns'. 


'talk.politics.mideast'. 


'talk.politics.misc'. 


'talk.religion.misc'] 
# 这 里 选取 





4 个 主题 


categories = ['alt.atheism', 


'comp.graphics'. 


"sci.med', 


'soc.religion.christian'] 
# 下 载 这 


4 个 主题 里 的 文件 


twenty train = fetch 20newsgroups.: 


subset-'train'. 


categories-categories» 


# 文 件 内 容 在 





twenty_train,data 这 个 变量 里 ， 现 在 对 内 容 进行 分 词 和 向 量化 操作 


count vect = CountVectorizer Oo 


X train counts - count vect.fit transform: 


twenty train.data» 


# 接 着 对 向 量化 之 后 的 结果 做 


TF- 工 DF 转 换 


tfidf transformer = TfidfTransformer © 


X train tfidf - tfidf transformer.fit transform: 


X train counts» 





Rocchio 的 示例 代码 如 下 : 





from sklearn.neighbors.nearest centroid import NearestCentroid 
3d 





TF- 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 





twenty_train,.,target 放 入 分 类 器 中 进行 训练 


clf = NearestCentroid © 


.fit« 


X train tfidf 


twenty train.targeto 


# 创 建 测试 集合 ， 这 








is 





2 条 数据 ， 每 条 数据 一 行内 容 ， 进 行 向 量化 和 





TF- 工 DF 转 换 


docs new = ['God is love'. 


'OpenGL on the GPU is fast'] 


X new counts = count vect.transform.: 


docs new» 


X new tfidf = tfidf transformer.transform: 


X new counts» 


# 预 测 


predicted = clf.predict: 


X new tfidf» 


# 打 印 结果 


for doc， 


category in zip (< 


docs new. 


predicted) : 


print < 


'%r => %S' % ( 


doc, 


twenty train.target names[category]»» 





Rocchio 算 法 的 缺陷 是 很 明显 的 ， 它 做 了 两 个 假设 ， 使 得 它 的 分 类 
能 力 打 了 很 大 的 折扣 。 


假设 一 : 一 个 类 别 的 文档 仅仅 聚集 在 一 个 质心 的 周围 ， 实 际 情况 
往往 不 是 如 此 。 








假设 二 训练 数据 是 绝对 正确 的 ， 因 为 它 没有 任何 定量 衡量 样本 


征 否 含有 噪声 的 机 制 ， 错 误 的 分 类 数据 会 影响 质心 的 位 置 。 





14.2.2 Fhe UH EE SET 





朴素 贝 叶 斯 算法 关注 的 是 文档 属于 茶 类 别 的 概率 。 文 档 属于 某 个 类 
别 的 概率 等 于 文档 中 每 个 词 属于 该 类 别 的 概率 的 综合 表达 式 。 而 每 个 词 
属于 该 类 别 的 概率 又 在 一 定 程度 上 可 以 用 这 个 词 在 该 类 别 训 练 文档 中 出 
现 的 次 数 《〈 词 频 信息 ) 来 粗略 估计 ， 因 而 使 得 整个 计算 过 程 可 行 。 使 用 
朴素 贝 叶 斯 算法 时 ， 在 训练 阶段 的 主要 任务 就 是 估计 这 些 值 。 











所 以 前 两 步 仍然 是 分 词 和 回 量 化 。 


贝 叶 斯 概率 公式 如 下 : 
P(x|D,)P(D,) 


n 


> P(x | D,)P(D,) 


P(D, |x) = 


上 式 是 完整 的 贝 叶 斯 概率 公式 ， 简 写 的 朴素 贝 叶 斯 概率 公式 如 下 ; 
P(A|B)P(B)=P(B\A)P(A) 
上 式 指 的 是 在 全 样本 空间 里 ， 独 立 事件 B 发 生 的 概率 乘 以 在 B 发 生 
的 情况 下 发 生 A 的 概率 ， 等 于 独立 事件 发 生 A 的 概率 乘 以 在 A 发 生 的 情况 
下 发 生 B 的 概率 。 





如 傈 研究 两 个 事件 的 条 件 概率 关系 用 这 个 简化 版 的 公式 肯定 是 一 目 


了 然 的 ， 那 么 在 文章 分 类 里 怎么 用 呢 ? 








首先 ， 如 有 果 能 够 统计 某 个 词 在 茶 类 别 文章 中 出 现 的 概率 ， 就 用 
P CD, pO 来 表示 ， 如 x 是 “军事 类 ”( 肯 定 还 有 y 分 类 “体育 类 ”，z 分 类 “经 
BRE) » D 表示 某 一 个 词 的 词 频 ， 如 D1 表示 “雷达 ”的 词 频 ， 那 么 
P (D, |x) 就 表示 “军事 类 ”文章 中 出 现 “ 雷 达 ” 的 概率 。 除 了 “雷达 ”以 
外 ， 肯 定 还 有 很 多 其 他 词 向 量 的 词 频 统计 ， 所 以 就 有 很 多 的 PD 
ly « P (Dj|z) 来 分 别 表 示 它 们 在 “体育 类 ”或 “经 济 类 ”文章 中 的 每 个 词 
的 词 频 。 





























反 过 来 再 看 ， 还 是 以 “雷达 ”这 个 词 为 例 ， 恐 怕 不 止 出 现在 “军事 
类 ”的 文章 中 ， 可 能 也 出 现在 其 他 小 说 或 者 广告 、 科 普 读物 里 。 那 么 “ 雷 
达 ” 出 现在 “军事 类 ” “体育 类 ” “经 济 类 ”文章 中 的 概率 用 P (xD) 、 
P Cy[D4 ) . P Cz[D4 ) 来 表示 ， 如 有 10000 篇 “军事 类 ”文章 ， 其 中 有 500 
篇 提 到 了 雷达 ， 那 P(x|D; ) 就 是 0.05; 除 此 之 外 ， 也 可 以 求 出 每 一 个 
P (xlIDj ) ~ P ID) > P D) 等 。 








总 结 来 说 ， 步 又 如 下 。 
COD 对 训练 文章 进行 分 词 和 向 量化 。 
(20 对 所 有 文章 类 别 计算 P CD; pO. 、P (Dily) 、P (Dk) 等 。 


(3) 对 竺 分 类 的 文章 进行 分 词 和 回 量 化 。 








(4) 用 符 分 类 文章 的 词 癌 量 中 的 每 个 词 计算 P (x|D; ) ~ P Cy[Dy 
) 、P D) 等 。 





需要 强调 的 是 ，P OD) 可 不 是 计算 一 个 值 ， 而 是 计算 整个 词 向 
量 中 所 有 的 词 ， 如 果 词 回 量 有 1000 个 元 素 ， 那 么 Dj WED, 到 Diooo ， 这 
1000 个 词 都 要 进行 计算 。 


(5) 计算 概率 ， 看 看 符 分 类 文章 属于 哪个 类 型 的 文章 概率 最 大 。 





部 分 计算 的 时 候 要 注意 计算 技巧 ， 如 计算 一 个 完整 的 词 问 量 Di 
到 Di000 属于 x 类 的 概率 ， 公式 如 下 : 


P(D)|x)=P(D,|x)P(D|x)-*-P(D oX) 
解释 一 下 ，P CD; pO. "P HUE SERT IRI ED; MANA BR REESE US HH 
BUREA WI SA ARE, 200 15,2573 XR IRE TX Fl 
XP CD; pO P (x) =P D) P D) 的 含义 也 就 好 理解 了 吧 ， 
我 们 把 它 做 个 变形 : 
P(D, | x)P(x) 


Fi es m 








P DO 就 是 要 求 的 ， 完 整 的 词 向 量 D, 最 终 属于 x 文章 分 类 的 概 


P (Do 可 以 设 为 1， 因 为 对 于 已 经 拿 到 的 待 分 类 文本 ， 所 有 的 词 
频 发 生 概率 就 已 经 是 1 了 。 





P CD |x) 的 含义 我 们 刚刚 解释 过 。 








P GO 是 所 有 训练 文章 中 x 类 文章 出 现 的 概率 。 如 末 每 个 类 别 的 文 


章 都 用 一 样 多 的 数量 来 训练 ， 如 “军事 类 ” “体育 类 ”“ 经 济 类 ”各 100 
100 
篇 ， 那 所 有 的 P GO 、P (Qo. P C2 值 都 一 样 ， 都 是 100+100+100 


。 在 这 个 公式 里 ， 所 有 的 类 别 最 后 部 是 互相 比 P (x|D; ) ， 一 个 分 类 的 
P (x[D ) 越 大 就 说 明 这 篇 文章 属于 这 个 分 类 的 概率 越 大 ， 每 个 分 类 
P GO 部 一 样 大 的 情况 下 ， 那 残 可 以 都 不 乘 了 ， 和 直接 化 简 成 P(x|D; ) 
=P (D; |x) 。 要 记 住 ， 必 须 是 所 有 类 别 的 文章 训练 样本 的 数量 一 样 多 的 
时 候 才 能 做 这 个 简化 。 


ol 
3 








FE RU LIT ZR TP IR WLP PSR I EE, ÆPython Scikit-learn 库 
中 文 持 高 斯 朴素 贝 叶 斯 、 多 项 式 朴 素 贝 叶 斯 和 伯 努 利 朴素 贝 叶 斯 3 种 朴 
素 贝 叶 斯 分 类 算法 。 在 这 里 使 用 多 项 式 朴素 贝 叶 斯 来 做 文章 分 类 ， 完 整 
的 例子 如 下 : 
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Scikjit-earn 里 提供 了 几 种 贝 叶 斯 分 类 ， 其 中 多 项 式 贝 叶 斯 最 适合 做 文本 分 类 





from sklearn.naive bayes import MultinomialNB 
## 现 在 把 


TF - 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 





twenty_train.target 放 入 分 类 器 中 进行 训练 


clf = MultinomialNB © 


. Fit < 


X train tfidf. 


twenty train.targeto 


# 创 建 测试 集合 ， 这 里 有 








2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 





TF - 工 DF 转 换 


docs new = ['God is love'. 


'OpenGL on the GPU is fast'] 


X new counts = count vect.transform.: 


docs new» 


X new tfidf = tfidf transformer.transform: 


X new counts» 


# 预 测 


predicted = clf.predict: 


X new tfidf» 


# 打 印 结果 


for doc. 


category in zip (< 


docs new. 


predicted) : 


print < 


'%r => %S' % ( 


doc, 


twenty train.target names[category]»» 





关于 分 类 的 问题 可 以 扩展 一 下 ， 每 篇 文章 的 分 类 可 能 不 是 只 有 一 
个 "军事 类 ”"、“ 体 育 类 ”等 类 别 ， 而 可 能 是 多 个 标签 组 合 描述 的 主题 性 或 
情绪 性 分 类 说 明 ， 例 如 ， 在 一 篇 文章 里 可 以 同时 标 出 “军事 "、“ 科 
He. td "MONDE. XT 


4 








S 


"等 标签 ， 也 可 以 标 出 "经济 "、“ 局 势 ”、 
主题 性 或 情绪 性 的 分 类 ， 利 用 朴素 贝 叶 斯 算法 同样 可 以 进行 分 类 标识 ， 
这 样 在 文章 分 类 时 文章 所 赋予 的 分 类 也 更 加 丰富 。 


a 





14.2.3 K-TEL YA 


K- 近 邻 算 法 英文 全 称 为 K-Nearest Neigbours， 也 有 的 资料 上 会 写作 
KNN 算 法 。 


K- 近 邻 算法 的 思路 是 ， 没 有 必要 去 总 结 原型 向 量 ， 只 需 原始 的 训练 


样本 ， 这 些 样 本 具有 最 基础 最 原始 而 且 准 确 的 向 量 信息 ， 因 此 此 算法 产 
生 的 分 类 融 也 叫做 “基于 实例 ”的 分 类 器 。 











流程 如 下 ， 拿 到 训练 的 文章 样本 之 后 ， 对 每 个 样本 都 进行 分 词 和 向 
量化 。 然 后 在 给 定 新 的 竺 判定 文章 后 ， 算 法 对 该 文档 也 进行 分 词 和 辐 量 
化 ， 不 同 的 地 方 在 后 面 的 操作 上 。 这 个 竺 判定 的 文章 的 向 量 会 和 所 有 训 
练 的 样本 进行 向 量 特 征 比 对 ， 也 就 是 相似 度 比 对 ， 这 样 会 得 到 它 与 所 有 
训练 样本 的 相似 度 排名 列表 。 把 K 定 为 一 个 变量 ， 从 这 个 列表 中 找 出 相 
似 度 最 高 的 K 篇 文章 ， 根 据 这 K 篇 文章 的 类 别 分 布 投 票 决 定 这 篇 待 判定 
的 文章 更 像 哪 种 分 类 。 

















这 个 方法 看 上 去 很 简单 ， 其 实 根本 就 没有 模型 训练 的 成 分 在 里 面 ， 
但 是 还 是 一 分 为 二 地 来 看 这 种 方法 。 

它 的 优点 : 因为 这 种 方法 可 以 克服 Rocchio 算 法 中 无 法 处 理 线性 的 
人 缺陷， 同时 “训练 成 本 ?" 也 非常 低 一 一 其 他 分 类 方法 进行 算法 和 模型 调整 











时 要 重新 对 所 有 的 分 类 文本 进行 全 局 计算 ， 而 这 种 算法 只 需要 对 东 个 已 
有 的 训练 文档 进行 删除 ， 或 者 加 入 新 的 训练 文档 ， 这 个 训练 的 分 类 规则 
就 同时 发 生 了 变化 。 


它 的 缺点 ; 也 是 非常 致命 的 ， 就 是 计算 成 本 比较 高 。 如 果 要 计算 一 
篇 符 分 类 的 文章 ， 就 要 将 它 和 所 有 的 训练 样本 进行 比较 。 如 果 有 100 个 
> ZK 

ZA 








文章 分 类 ， 每 个 文章 分 类 有 100 篇 训练 文章 ， 那 就 是 10000 次 计算 ， 而 且 
每 分 类 一 篇 文章 就 要 进行 10000 次 计算 ， 计 算 成 本 非常 高 。 


下 面 给 出 应 用 的 代码 以 供 参考 : 





from sklearn.neighbors import KNeighborsClassifier 
## 找 出 相似 度 最 高 的 


工 5 篇 文章 


# 现 在 把 


TF - 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 





twenty_train,.,target 放 入 分 类 器 中 进行 训练 





clf = KNeighborsClassifier < 


15) 


. Fit c 


X train tfidf. 


twenty train.targeto 


# 创 建 测试 集合 ， 这 里 有 








2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 








TF- 工 DF 转 换 


docs new = ['God is love'. 


'OpenGL on the GPU is fast'] 
X new counts = count vect.transform: 


docs new» 


X new tfidf = tfidf transformer.transform: 


X new counts» 


# 预 测 


predicted = clf.predict: 


X new tfidf» 


# 打 印 结 


for doc， 


category in zip < 


docs_new. 


predicted) : 


print < 


'%r => %S' % ( 


doc, 


twenty train.target names[category]»» 


14.2.4 ”支持 问 量 机 SVM 算 法 





支持 同 量 机 在 第 10 间 已 经 介绍 过 。 在 该 章节 中 讨论 的 是 一 种 通用 性 
的 线性 分 类 器 构造 原则 ， 不 管 有 多 少 维 的 数据 ， 只 要 友 现 线性 不 可 分 ， 
就 可 以 映射 到 高 一 维度 的 空间 去 构造 一 个 超 平 面 。 





在 文章 分 类 里 ， 同 样 可 以 应 用 这 样 的 方式 ， 只 要 已 经 理解 了 SVM 的 
解 题 思 路 ， 理 解 它 在 文章 分 类 中 的 应 用 惑 不 会 困难 。 


前 面 说 过 ， 拿 到 文章 以 后 ， 要 进行 分 词 和 向 量化 ， 向 量化 之 后 ， 
篇 文章 就 会 变 成 一 个 几 千 维 或 者 几 万 维 的 向 量 。 这 些 向 量 在 空间 上 的 划 
FMg (v) =wv+b 这 样 的 超 平面 用 法 一 样 ， 几 乎 没有 任何 区 别 ， 只 是 v 
的 维度 会 非常 多 而 已 。 

















总 体 来 说 ，SVM 分 类 器 的 文本 分 类 效果 很 好 ， 可 以 认为 是 最 好 的 分 
类 器 之 一 。 它 有 很 多 优点 ， 如 通用 性 较 好 ， 分 类 精度 高 ， 分 类 速度 快 ， 
分 类 速度 与 训练 样本 个 数 无 关 ， 在 查 准 和 查 全 率 ( 精 度 和 召回 率 ) 方面 
都 优 于 KNN 及 朴素 贝 叶 斯 方法 。 但 是 它 也 有 缺点， 如 SVM 训练 速度 很 
大 程度 上 受到 训练 集 规模 的 影响 ， 计 算 开销 比较 大 ， 针 对 SVM 的 训练 速 
度 问题 ， 研 究 者 提出 了 很 多 改进 方法 ， 包 括 Chunking 方 法 、Osuna 算 
法 、SMO 算 法 和 交互 SVM 等 。 





前 面 在 介绍 SVM 一 节 中 提 过 ，SVC 所 支持 的 核 函 数 包括 linear( 线 
PERK PBL) 、poly〈 多 项 式 核 函 数 ) 、rbf《〈 径 向 基 核 函数 ) 、 
sigmoid (神经 元 激活 核 函 数 ) 、precomputed〈 自 定义 核 函 数 ) 。 其 
中 ， 径 向 基 核 函数 rbf 和 线性 核 函 数 linear 是 人 们 在 生产 生活 中 用 得 最 频 
繁 的 两 种 核 函 数 。 对 于 文章 分 类 ， 一 般 推 荐 使 用 线性 核 函 数 linear， 这 
种 核 函 数 计算 效率 极 蜗 ， 对 文章 分 类 的 准确 性 也 非常 高 








这 里 也 给 出 一 个 用 SVM 算法 进行 文章 分 类 的 例子 : 





from sklearn import svm 
# 现 在 把 


TF- 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 








twenty_train,.,target 放 入 分 类 器 中 进行 训练 


# 这 里 使 用 线性 支持 向 量 分 类 





]inear， 对 文章 分 类 效果 比较 好 


clf = svm.SVC « 


kernel-'linear'» 


.fit« 


X train tfidf. 


twenty train.targeto 


# 创 建 测试 集合 ， 这 里 有 











2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 





TF-IDF£ 


docs new - ['God is love'. 


'OpenGL on the GPU is fast'] 
X new counts = count vect.transform: 


docs new» 


X new tfidf = tfidf transformer.transform: 


X new counts» 


# 预 测 


predicted = clf.predict: 


X new tfidf» 


# 打 印 结果 


for doc， 


category in zip < 


docs new. 


predicted) : 


print « 


'%r => %S' % 


doc. 


twenty train.target names[category]»» 


143. hm 


由 于 篇 幅 有 限 ， 本 章 只 介绍 了 文本 分 类 方面 的 内 容 ， 文 本 分 类 是 网 
站 进行 与 情 分 析 、 偏 好 猜测 等 行为 的 重要 手段 ， 读 者 掌握 基本 方法 即 
可 。 





请 注意 ， 一 般 来 说 ， 文 章 越 短 分 类 的 难度 越 大 ， 谁 确 性 越 震 。 这 和 凭 
直觉 也 能 感 党 出 来 ， 一 句 很 短 的 话 肯定 是 能 够 在 很 多 类 型 的 文章 中 都 有 
机 会 读 到 的 ， 那 么 这 样 的 句子 是 几乎 没有 办 法 去 判断 主旨 内 容 的 ， 要 想 
知道 主旨 内 容 还 是 要 通过 大 量 的 上 下 文 。 


第 15 草 ”人 工 神 经 网 络 





人 类 对 于 人 工 重 能 领域 的 研 完 随 着 其 他 各 领域 尤其 是 信息 科学 的 进 
步 而 快速 进步 。 现 在 在 工厂 生产 线 上 看 到 的 机 器 人 其 实 是 比较 “弱智 ”的 
机 器 人 ， 因 为 它 基本 只 能 根据 人 给 它 的 固定 指令 去 做 固定 的 动作 组 合 ， 
所 以 称 它 为 "机械手 臂 ?也 许 更 为 贴切 。 而 要 想 进行 比较 深层 的 突破 ， 

FY IAS) Sook TA ce E R o 

















当 人 们 意识 到 人 脑 的 工作 方式 与 数字 计算 机 有 着 极 大 不 同时 ， 人 们 
就 逐渐 开始 研究 “人 工 神经 网 络 ”(Artificial Neural Network, ANN) , 
希望 能 够 从 仿生 学 的 角度 给 这 种 研究 带 来 新 的 动力 。 所 谓 “ 人 法 地 ， 地 
法 天 ， 天 法 道 ， 道 法 自然 山 ”。 从 自然 中 学 习 和 寻求 规律 有 时 比 冥 想 要 
更 有 智慧 





cl 





MATA FEE RAS Y CHI STAT RR, IT Fe HRS SAH 
潜水 艇 的 灵感 。 人 们 同样 期 望 从 研究 人 的 神经 网 络 中 获得 更 多 高 级 、 智 
能 化 的 数据 处 理 思路 和 经 验 。 





人 脑 是 人 们 到 目前 为 止 发 现 的 ， 最 令 人 叹为观止 的 信息 处 理 系统 
了 。 人 脑 在 加 减 乘除 方面 的 计算 速度 上 可 能 赶不上 很 多 单片机 ， 但 是 在 
很 多 特殊 场景 的 运算 中 却 是 高 级 计算 机 无 法 比拟 的 ， 如 模式 识别 《声音 
识别 、 图 像 识 别 等 ) 。 





1] 出 自 《道德 经 - 道 经 第 二 十 五 章 》。 





15.31 人 的 神经 网 络 





大 脑 是 人 的 神经 最 为 关键 和 核心 的 部 分 ， 也 同样 是 所 有 将 椎 动物 门 
的 动物 最 宝 贯 的 "财产 *”。 人 类 参 养 各 种 宠物 ， 如 狗 或 猫 ， 条 件 比 较 富 裕 
的 人 还 会 兰 养 马 、 鹿 等 ， 主 要 原因 也 是 由 于 这 类 动物 更 加 通 人 性 、 联 
明 、 互 动感 好 ， 容 易 与 人 的 交流 形成 配合 。 也 有 一 些 养 乌 、 养 鱼 的 ， 主 
要 是 为 了 欣 偶 乌 婉 转 的 鸣叫 声 和 鱼 奇 弥 的 外 形 。 猪 奇 的 宠物 主 可 能 会 去 
产 养 蜥 蝎 、 曲 蚁 等 ， 但 十 有 八 九 不 是 因为 它们 聪明 。 这 些 无 一 例外 ， 都 
是 消 椎 动物 门 的 动物 ， 部 有 大 脑 。 








通过 大 量 的 解 列 研究 ， 人 们 逐渐 对 神经 网 络 的 组 成 原理 有 了 更 多 的 
认识 ， 并 开始 尝试 着 解读 神经 网 络 的 奥秘 所 在 。 











现在 流通 的 资料 里 ， 关 于 人 体 神 经 元 数量 的 估算 还 是 英 囊 一 是 ， 但 
是 有 一 个 数字 大 家 基本 认可 ， 即 人 的 大 脑 皮 层 里 有 神经 元 约 140 亿 个 ， 
ANSE AA BZ BE FAG HAE 


神经 网 络 有 以 下 几 个 非常 优秀 的 特点 。 


C1) 大 规模 并 行 分 布 式 结构 。 


(2) 神经 网 络 的 学 习 能 力 以 及 由 此 而 来 的 泛 化 能 


泛 化 这 一 点 很 重要 ， 它 是 指 在 遇 到 一 些 没有 在 训练 中 遇 到 的 数据 时 








仍然 可 以 得 到 合理 的 输出 ， 这 一 点 在 第 8 章 等 章节 同样 提 到 过 。 





具备 这 两 种 强大 的 信息 处 理 能 力 让 神经 网 络 可 以 为 一 些 当前 难以 处 
理 的 复杂 问题 找到 一 些 好 的 近似 解 。 


15.1.1 神经 网 络 结构 





人 和 目 身 是 怎么 感受 到 “快乐 > 这 种 情绪 的 ? ATLA, iE 
复杂 的 计算 过 程 。 

研究 表示 ， 人 类 感受 到 的 快乐 是 由 脑 神经 元 之 间 通 过 多 巴 胺 进行 信 
恩 传 递 来 获得 的 。 





瑞典 人 阿尔 维 德 .卡尔 森 (Arvid Carlsson) 由 于 确定 多 巴 胺 为 脑 内 
言 姑 传递 者 的 角色 获得 了 2000 年 诡 贝 尔 医学 奖 。 


大 量 的 多 巴 版 能 够 让 人 兴奋 、 快 乐 ， 而 缺少 多 巴 胺 的 人 通 闸 情绪 低 
落 ， 甚 至 会 令 人 失去 控制 肌肉 的 能 力 ， 严 重 会 令 病 人 的 手脚 不 目 主 地 震 
Bi ek, BUA AES PR AIE o 





让 人 产生 多 巴 胶 的 行为 有 很 多 ， 如 吃 甜 食 、 适 度 运动 等 。 而 令 人 谈 
虎 色 变 的 毒品 通常 有 着 极 强 的 多 巴 胺 “制造 "能 力 一 一 其 实 是 让 细胞 里 的 
多 巴 胺 存量 大 量 释放 出 来 ， 让 人 在 短 时 间 内 产生 极 大 的 快感 。 








图 15-1 多巴胺 


多 巴 胺 的 分 子 结构 如 图 15-1001 所 示 。 多 巴 胺 的 化 学 式 如 下 : 
C.H,(OH),-CH,-CH,-NH, 


这 个 化 学 式 很 复杂 ， 在 计算 机 二 进 制 系统 里 找 不 到 能 对 其 模拟 得 惧 
妙 惟 首 的 传递 介质 ， 二 进 制 系统 里 只 有 0 和 1 这 种 存储 和 传输 介质 ， 更 别 
说 在 神经 元 细胞 内 部 的 “计算 ”是 怎么 样 的 计算 了 ， 更 让 人 捉摸 不 透 的 是 
让 我 们 产生 快感 的 计算 是 怎么 做 的 ， 我 们 只 能 在 有 限 的 认识 内 对 这 种 算 
法 进行 模拟 。 





人 的 神经 细胞 如 图 15-2 所 示 ， 校 校 权 权 很 多 ， 远 远 看 上 去 一 边 比 较 
粗大 一 边 比 较 纤细 。 最 上 站 粗大 的 一 边 就 是 细胞 体 的 所 在 ， 细 胞 体 上 有 
一 些小 梳 权 叫做 树 突 ， 细 长 的 一 条 像 尾 巴 一 样 的 东西 叫做 轴 突 。 不 同 细 
胞 之 间 通 过 树 突 和 轴 突 相互 传递 信息 ， 它 们 的 接触 点 叫 突 触 ， 准 确 地 说 


征 由 一 个 细胞 的 轴 突 通过 突 触 将 信号 传递 给 另 一 个 细胞 的 树 突 。 








图 15-2 ”人 的 神经 细胞 〈 见 彩 插 ) 


神经 细胞 用 化 学 信号 传递 信息 ， 如 多 巴 胺 ， 其 过 程 非常 复杂 。 这 里 
用 二 进 制 的 电子 计算 机 模拟 ， 为 了 模拟 起 来 比较 方便 ， 我 们 只 认为 大 脑 
的 神经 细胞 有 两 种 状态 : 兴奋 和 抑制 ，1 为 兴奋 ，0 为 抑制 。 


一 个 神经 元 兴奋 和 抑制 的 信号 是 由 这 个 神经 元 的 树 突 来 影响 的 ， 
为 树 突 是 接受 外 界 刺 激 的 ， 刺 激 强烈 神经 元 就 兴奋 ， 刺 激 不 强烈 神经 元 


就 抑制 。 一 个 神经 元 有 很 多 的 树 突 ， 这 些 树 突 其 实 可 以 同时 接受 多 个 其 
他 神经 元 送 过 来 的 刺激 信号 ， 这 些 信号 经 过 一 系列 复杂 的 计算 ， 最终 产 
生 一 个 确定 的 兴奋 或 者 抑制 的 结果 ， 这 些 突 触 之 间 有 的 是 通过 化 学 信和 号 
进行 信号 传递 的 ， 有 的 是 通过 电信 和 号 进行 信号 传递 的 ， 但 是 这 并 不 重 
要 ， 反 正 建 模 时 只 能 用 类 似 0 和 1 的 方式 来 模拟 。 





人 脑 的 神经 细胞 工作 频率 非常 低 ， 大 概 只 有 100Hz， 这 比 20 世 纪 80 
年 代 末 流行 的 286 计 算 机 的 20MHz 主 频 还 差 了 20 万 倍 。 但 是 神经 细胞 数 
量 巨 大 ， 并 且 并 行进 行 独立 的 处 理工 作 ， 这 让 大 脑 具 备 很 惊人 的 特点 ， 
如 能 够 进行 高 效 的 无 监督 学 习 ， 模 式 识别 等 。 


1] 图 片 来 源 于 百度 地 图 。 


15.1.2 ”结构 模拟 


既然 已 经 了 解 到 神经 元 的 工作 方式 ， 不 妨 设计 一 个 和 它 的 工作 方式 
近似 的 电子 信号 处 理 系统 ， 如 图 15-3 所 示 。 





图 15-3 ”由 神经 元 模拟 的 电子 信号 处 理 系统 








它 有 5 个 输入 的 树 突 ( 也 可 以 是 3、4 个 树 突 ， 也 可 以 是 6 个 或 者 更 
多 ， 这 里 设计 成 5 个 没有 特别 的 目的 ) ， 有 一 个 轴 突 ， 而 中 间 的 部 分 负 
责 进行 计算 。 当 5 个 树 突 输入 的 内 容 合适 时 ， 让 轴 突 输出 ] 一 一 兴奋 ， 反 
之 让 轴 突 输出 0 一 一 抑制 。 可 以 让 每 个 树 突 上 的 输入 数字 做 加 和 来 模拟 
这 个 计算 兴奋 或 者 抑制 的 过 程 ， 每 个 刺激 都 是 0 或 1， 也 就 是 来 自 其 他 神 
经 元 细胞 的 刺激 ， 刺 激 的 值 为 xi 。 为 了 让 树 突 上 的 刺激 有 所 区 别 ， 可 以 
考虑 给 每 个 树 突 输 入 的 值 乘 以 一 个 权 值 ， 这 个 权 值 同 样 是 一 个 [-1，1] 之 








间 的 小 数 ， 权 值 标注 为 w 。 后 面 如 果 不 做 说 明 ，w; 的 取 值 就 是 在 [-1， 
URN, x 就 是 0 或 1。 


设置 激励 函数 为 “名 ” wx ， 作 为 整个 过 程 的 模拟 。 


从 函数 的 定义 域 上 看 ，f (x)》 的 范围 应 该 在 [-5，5] 之 间 。 可 以 记 作 
前 面 写 的 连 加 和 的 形式 ， 也 可 以 记 作 后 面 写 的 算 阵 内 积 的 形式 ， 含 义 是 
完全 一 样 的 ， 看 过 第 10 章 的 读者 尤其 不 会 陌生 。 





整个 函数 产生 的 结果 最 终 还 会 继续 去 刺激 其 他 函数 一 一 毕竟 要 连 
网 络 ， 所 以 还 要 让 轴 突 产生 的 输出 函数 为 1 或 9。 所 以 在 最 终 输 出 之 前 还 


Er 


" f1 f(x)z0 
output = | 0 f( a <0 


对 f GO 进行 一 下 加 工 ， 如 果 相 加 的 和 大 于 等 于 0 就 认为 是 兴奋 状 
态 ， 如 果 小 于 0 就 认为 是 抑制 状态 。 


WEY, WRB BRB EI KEK, ABABA Hew, FLAY 
很 正常 ， 想 当年 部 是 这 么 过 来 的 。” 我 们 现在 手 里 有 了 一 个 世界 上 最 纶 
的 神经 网 络 细胞 ， 注 意 ， 真 的 只 是 一 个 细胞 而 已 。 下 面 来 试 一 下 ， 看 这 
个 细胞 能 不 能 完成 机 器 学 习 的 工作 。 








15.1.3 训练 与 工作 


和 一 般 的 分 类 算法 一 样 ， 使 用 人 工 神经 网 络 进行 分 类 时 同样 需要 先 
进行 训练 ， 即 便 是 一 个 神经 元 也 是 要 训练 的 。 


训练 过 程 大 致 如 下 。 


(1) 初始 化 权重 。 随 机 设置 wi 的 大 小 ， 即 设置 初始 的 每 个 树 突 上 
的 权重 。 先 给 定 一 个 任意 值 ， 如 都 是 1。 


(2) 训练 。 给 定 输入 各 Xi 的 大 小 和 对 应 的 output 输 出 值 ， 这 是 一 组 
样本 。 需 要 给 定 很 多 组 样本 ,这 就是 学 习 的 过 程 。 

仔细 看 一 下 这 个 过 程 : 

VEW X tw Xt W3 X3 WX WesxXs 

[1 fo)z0 
lo /0)<0 

AA APPIN AR ZR. 3ESERIBLEDSEAOSE? 知道 日 变 量 ， 知 道 函 数 
值 ， 用 计算 的 方法 算出 这 些 待定 的 系数 。 没 错 ， 这 个 跟 回 归真 的 就 是 如 
出 一 略 。 在 8.1 攻 曾经 讨论 过 用 最 小 二 乘法 来 计算 符 定 的 系数 ， 那 么 在 
现在 这 个 例子 里 能 不 能 用 同样 或 者 类 似 的 办 法 来 解决 问题 呢 ? 答案 是 肯 


output = 








定 的 ， 只 是 这 一 类 回归 不 是 线性 关系 的 ， 它 在 回归 分 析 中 是 有 确切 的 名 
词 定义 的 ， 这 种 二 项 分 布 形 的 回归 叫 作 逻辑 回归 CLogistic 

Regression) 。 过 辑 回 归 判 断 的 方式 比较 单纯 ， 束 如 同 我 们 在 刚刚 的 例 
子 说 的 这 样 ， 有 一 些 输入 的 目 变 量 ， 分 类 结果 只 有 两 类 ， 即 针对 要 分 类 


的 目标 ， 要 么 是 这 一 类 ， 要 么 不 是 这 一 








" 


除 此 之 外 还 像 什 么 ? 像 不 像 在 文 持 问 量 机 SVM 里 看 到 的 超 平面 的 定 
X? 


SVM 算法 是 为 了 寻找 一 个 g〈v) =wv+b 的 超 平面 ， 其 中 v 就 是 一 个 n 
维 的 癌 量 ，n 可 以 是 1 到 无 穷 的 任何 一 个 整数 ， 其 实 当 n 等 于 5 时 ， 就 与 


y7W, X, +W2 Xp +W3 X3 twy X4 +Ws Xs 的 形式 很 相近 ， 只 是 这 个 g (v) 展 








开 以 后 是 y=wi x +W, X; +W3 X3 *W4 X4 *Ws Xs +b， 变 量具 体 用 x 还 是 用 
y、z 来 表示 并 不 重要 ， 关 键 是 它们 在 处 理 问题 上 的 迎 辑 ， 仔 细 看 看 ， 思 
路 都 是 答 试 找 一 个 “ 超 平面 ”。 





以 二 维 空间 上 的 超 平面 2x+5y+4=0 为 例 ， 经 过 变形 就 成 了 y=-0.4x- 
0.8。 其 实 也 就 是 g (v) =2x, +5x, +4， 如 图 15-4 所 示 。 





图 15-4 ”y=-0.4x-0.8 的 图 形 


三 维 空间 上 的 超 平面 4x+y-2z+6=0 经 过 变形 就 成 了 z=2x+0.5y+3。 其 
实 也 就 是 g (v) =4x, +x, -x3 +6， 如 图 15-5 所 示 。 


v| 


oroia 
E 





x |-10-0000 10.0000) 






[z |-32.4449 32.4449 


图 15-5 ”z=2x+0.5y+3 的 图 形 


y-W, X] +W2 X; tw3 X3 +W4 X4 +Ws Xs +b 公 式 里 的 b 这 一 项 ， 可 以 这 
么 理解 ， 完 全 是 在 超 平面 斜率 定好 后 为 了 调整 截 距 而 设置 的 ，b 恒 等 于 0 
的 情况 下 就 是 让 超 平 面 永 远 通过 原点 。 所 以 在 不 同 的 资料 上 会 看 到 两 种 
表达 方式 ， 而 且 后 者 更 常见 : 


y—WjóX;TWjX4TWa4X4TWA4X40T-WsXs 
y=w Xx +w xwx; Wax. Wwsxstb 


这 种 单 细 胞 人 工 神经 网 络 一 般 用 来 处 理 手写 识别 、 垃 圾 邮件 分 类 、 
金融 欺诈 行为 、 网 络 注册 用 户 是 否 真 实 等 问题 。 





具体 的 方式 在 10.5 节 已 经 进行 过 比较 详细 的 讨论 了 ， 用 SVM 算法 去 
解决 甚至 更 好 ， 因 为 它 最 厉害 的 地 方 是 能 够 映射 到 高 维 去 解决 线性 不 可 


分 的 问题 。 


神经 网 络 和 SVM 解决 问题 的 思路 的 不 同 之 处 在 于 ， 在 线性 不 可 分 
时 ，SVM 会 映射 到 高 维 去 划分 超 平面 ， 而 神经 网 络 是 增加 输入 的 变量 、 
网 络 的 层次 、 输 出 层 。 





152 FANN 库 简介 











在 人 工 神经 网 络 算法 的 编写 过 程 中 ， 可 以 考虑 目 己 一 行 一 行 去 做 代 
码 实现 ， 也 可 以 使 用 开源 的 人 工 神经 网 络 算法 库 ， 以 把 精力 集中 在 建 模 
工作 上 。FANN 库 就 是 众多 人 工 神 经 网 络 库 之 一 。 


FANN 是 一 个 开源 的 神经 网 络 模 型 库 ， 全 称 是 Fast Artificial Neural 
Network Library。 它 是 用 C 语 言 编 写 的 ， 运 行 高 效 ， 而 且 可 以 支持 模拟 
单 层 、 多 层 的 各 种 全 连接 和 半 和 连接 网 络 。2.1 版 本 以 上 的 FANN 支 持 包 括 
C#、Java、PHP、Python 等 超过 20 种 计算 机 语言 的 黑 盒 式 调用 ， 使 用 非 
常 方便 。 它 最 强大 的 特性 之 一 是 文 持 多 种 GUI， 这 种 用 户 界 面 的 友好 型 


U WE BILE XOU. 





图 15-611 用 来 做 网 络 搭建 的 FANN Tool 1.2 的 界面 。 


ALDERIHIEG mr E Hd Layer 1- he 站 We tayer2 ， 

m i Traning Method - [FANN TRAN_RPROP >] 
Actwaton Funchon (Hidden) [FANN_SIGMOID_SYMMETRIC -| 
Acttvsbon Function (Output) [FANN_SKGMOID_SYMME TRIC >) 





[15-6 FANN Tool 1.2 


另 一 种 FANN 官 网 推荐 的 专门 做 神经 网 络 搭建 的 可 视 化 工具 是 Agiel 
Neural Network， 如 图 15-714 所 示 。 





图 15-7  Agiel Neural Network 


FANN 的 中 文 资料 少 得 可 怜 ， 要 想 做 更 多 的 了 解 还 是 推荐 前 往 其 官 
方 网 站 阅读 英文 原文 。 网 站 地 址 : http://leenissen.dk/fann/ 。 


FANN 的 特性 如 下 ， 后 面 将 会 有 基于 FANN 库 做 算法 实现 的 例子 。 
“使 用 C 语 言 编 写 的 多 层 人 工 神 经 网 络 库 。 

:反问 传播 训练 。 

进化 型 拓扑 训练 ， 可 动态 建立 并 训练 人 工 神经 网 络 。 

极 易 使 用 。 


极其 快速 ( 据 称 比 其 他 的 人 工 和 神经 网 络 框 架 快 150 倍 〉。 
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文档 完备 。 


. 跨 平 台 性 良好 ， 支 持 Linux 和 UNIX 以 及 Windows 平 台 使 用 的 dl1 库 。 


-实现 多 种 不 同 动态 函数 。 


.可 以 便捷 地 存 取 完整 人 工 神经 网 络 模型 。 


“有 多 种 易 用 的 例子 。 


.可 以 在 模型 中 兼容 浮 点 型 和 整 型 变量 。 





:具有 极 好 的 缓存 优化 。 
-开源 并 遵从 LGPL 协 议 。 
:具有 易 用 性 的 训练 数据 框架 。 
:具有 图 形 界面 。 
-支持 多 种 语言 调用 。 

-应 用 范围 广泛 。 


[1] KAFANN 官方 网 站 。 
[2] 图 片 来 源 于 sourceforge.net。 


15.3 WITZ za 





神经 网 络 模型 发 展 到 今天 有 了 很 多 变种 ， 据 说 已 有 不 少 于 70 种 的 不 
同 神经 网 络 模型 。 


常见 的 人 工 神 经 网 络 模型 有 以 下 几 种 。 


:感知 器 网 络 CPerceptron) ， 在 前 面 接触 到 的 “* 单 细胞 ”的 神经 网 络 
《应 该 叫 神经 元 更 合适 ) 就 是 感知 器 网 络 最 简单 的 形式 。 


. 按 误 差 逆 传播 算法 训练 的 多 层 前 馈 网 络 (Back Propagation，BP 神 
经 网 络 ) 。 


: 自 组 织 特征 映射 神经 网 络 (Self-Organizing Feature Map, 


SOM) . 
‘Hopfield 2g . 
: 玻 尔 效 受 机 (Boltzmann Machine) . 
. 卷 积 神经 网 络 〈Convolutional Neural Network, CNN) 。 


还 有 很 多 其 他 的 网 络 模型 ， 形 式 各 异 ， 偶 重 也 不 同 ， 适 应 场景 也 不 


7u 
ed 
可 


15.4 ”BP 神经 网 络 





BP 神经 网 络 是 指 误差 敢 传 播 算法 训练 的 多 层 前 馈 网 络 ， 听 起 来 名 
字 很 喝 吧 ,但 是 构建 的 思路 很 简单 。 


如 图 15-8 所 示 为 两 层 的 BP 神经 网 络 (只 有 隐 含 层 和 输出 层 是 参与 计 
算 和 权 值 调整 的 市 皮层 ) ， 当 然 可 以 有 更 多 的 层次 、 更 多 的 市 点 ， 这 里 


只 是 示意 性 介绍 构建 思路 。 


AG WK. 
SROKA SOK 
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输入 层 Es ra zs 输出 层 


图 15-8 两 层 的 BP 神 经 网 络 


15.4.1 ”结构 和 原理 


在 “ 单 细胞 ”的 神经 网 络 里 ， 实 际 上 只 有 一 层 ， 即 最 后 的 输出 层 。 在 
图 15-8 中 有 两 层 ， 第 一 层 每 个 节点 的 输入 都 是 一 样 的 ， 都 是 xl 、x2 、x3 
、X4 、x5 。 每 个 节点 的 超 平面 都 可 以 用 g〈v) =wv+b 来 表示 ， 也 就 是 
y-W, X, tw, X) tw; X3 tw, X4 +Ws Xs +b。 但 是 要 注意 ， 所 有 的 节点 最 后 


输出 的 函数 只 有 1 或 者 0 两 个 状态 ， 所 以 在 很 多 资料 上 会 看 到 以 下 写法 。 








激活 函数 为 Logistic 函 数 : 


| l 
f (v) = T e (W v+b) 


即便 变量 名 字 不 一 样 ， 但 是 实质 内 容 是 一 样 的 。 


f(y) = f(t) 


1 l 
$e) ARARE pee" 和 三 wv+b 这 两 个 函数 
组 合 变 量 代 换 形成 的 ， 把 t 代 换 进去 ， 就 变 成 了 f(v) WER, BATE 
名 不 同 但 是 函数 值 和 自 变 量 的 天 系 没 有 发 生 任 何 变化 。 





f()- 


1 
t=w v+b 在 SVM 里 已 经 介绍 过 。 lee’ 的 图 形 如 图 15-9 所 示 。 





o= 


] 
1+e ”的 图 形 


图 15-9 
比 0.5 大 时 函数 就 是 1， 比 0.5 小 时 函数 就 是 0。 
也 有 地 方 写 成 以 下 形式 : 
f — 


其 中 m 有 是 可 以 调整 的 正 整数 ，m 越 小 曲线 越 平 缓 ，m 越 大 曲线 越 立 
陡 ， 分 类 边界 越 明 显 。 具 体 在 每 个 应 用 里 怎么 去 取 m 值 可 以 依 情况 而 
定 ， 如 果 需 要 边界 区 分 非常 明显 ， 那 束 把 m 设 大 一 些 。 





1 
SOS TETT 函数 图 形 如 图 15-10 所 示 。 





ft) 


图 15-10 Ire 的 图 形 


S S 


107 LET 函数 图 形 如 图 15-11 所 示 。 





f(t) 


图 15-11 +e 的 图 形 





»)-— l 
所 以 对 于 Iree™5 函数 来 说 ， 函 数 会 根据 v 的 输入 对 应 产生 1 
和 0 两 种 函数 值 ， 而 这 里 面 待定 的 或 者 说 没 确 定 的 ) 就 是 w 这 个 矩 
阵 ， 这 就 是 在 网 络 训练 中 需要 决定 的 。 要 知道 最 后 每 个 节点 都 有 函数 


a 1 
JO = a z ceno e TT : ES 
+e ， 而 且 每 个 节点 之 间 都 可 能 完全 不 一 样 。 而 且 从 前 面 网 


络 拓 扑 图 的 结构 可 以 想象 ， 前 面 一 层 的 输出 结果 作为 后 面 一 层 市 点 的 输 
入 ， 最 后 一 层 的 输出 是 5 个 不 同 的 1 或 0， 也 就 是 说 这 个 网 络 最 多 标识 32 
种 不 同 的 分 类 一 一 因为 2 的 5 次 过 就 是 32， 它 没 办 法 标识 更 多 的 分 类 ， 除 
非 增加 节点 的 数量 。 














15.4.2 ”训练 过 程 


前 面 讨论 了 结构 ， 现 在 讨论 的 是 调整 这 个 网 络 上 各 个 节点 上 各 
个 “ 树 突 * 上 的 权 值 。 


这 里 还 是 希望 找到 一 种 方法 ， 能 够 让 设置 好 的 各 个 权 值 能 够 罗 配 尽 
可 能 多 的 训练 样本 的 分 类 情况 ， 让 误 判 的 情况 尽 可 能 少 ， 这 是 大 原则 ， 
和 线性 回归 中 希望 残 差 尽量 小 的 思路 是 完全 一 样 的 。 当 时 用 的 是 最 小 二 
乘法 的 方案 ， 而 最 小 二 乘法 的 思路 是 ， 如 果 把 误差 表示 成 样本 做 目 变 量 
的 函数 ， 然 后 用 求 极 值 的 方法 来 推导 就 可 以 找 出 这 个 误差 最 小 情况 下 的 
各 种 系数 值 了 。 很 幸运 ， 在 BP 神经 网 络 的 w 权 值 确定 中 同样 可 以 用 这 种 
思路 来 完成 。 














对 于 完整 的 训练 过 程 ， 看 上 去 像 在 曲线 上 找 驻 点 的 过 程 ， 这 里 试 着 
解释 一 下 这 个 过 程 。 下 面 这 个 推导 过 程 看 上 去 比较 复杂 ， 如 宋 看 不 明白 
直接 记 结 论 即 可 ， 推 导 细 市 可 以 忽略 。 


(1) 误差 计算 。 
隐 含 层 节点 输入 为 hi =wip x; +bl o 


隐 含 层 节 点 的 输出 为 h =f Chj) 。 


答 出 层 节点 的 输入 为 y Wig hb, « 

输出 层 节 点 的 输出 为 yo =f (y; ) 。 

变量 统一 化 ， 这 样 的 表示 可 以 把 两 层 的 输入 输出 串 起 来 ， 里 面 的 x 
`~ Wi ^ Who > ho ` Vo ih [n] 5 e 


E 7d,—) ‘oi 


E ^ pod 6 TRAE PALA 
E E l n E B l n (d 2 
= pl doi — Voi) 


+ j=l + j=l 





也 就 是 说 ， 给 定 n 个 训练 样本 ， 误 差 就 是 训练 中 给 出 的 分 类 和 学 习 
后 分 类 函数 输出 的 分 类 的 差 值 ， 然 后 平方 再 加 和 。 这 个 过 程 与 求 方差 差 
不 多 ， 反 正 最 后 的 原则 很 清楚 ， 方 差 尽 可 能 小 ， 最 好 是 零 。 如 果 在 设置 
了 隐 含 屋 和 输出 层 的 权 值 后 ， 这 个 等 式 的 值 很 小 ， 在 期 望 的 误差 范围 之 
内 即 可 ， 如 果 超 过 了 误差 范围 就 需要 调整 一 一 通常 不 太 可 能 一 次 就 把 值 
都 设置 正确 。 这 个 函数 前 面 本 身 是 没有 12 的 ， 这 里 特意 配 了 一 个 12 在 
里 面 ， 第 一 不 会 影响 函数 的 单调 性 ， 第 二 ， 在 求 导 时 能 够 去 掉 ， 看 上 去 

















简洁 一 些 。 


D 有 反问 传播 。 然后 对 这 个 误差 范 数 进行 求 导 求 仿 人 微分， 这 里 只 
给 出 简单 的 推导 过 程 。 


输出 层 误差 偏 微分 














OE _ OE ô, 
OW, Cy, OW,. 
AUS 中 
OE E 2 E. ( oi Ya) 
Cy, Oy, 
Oy, Ow; h, * b, ) ] 
ho 0 h 
OW, OW, : 
IBA 
OE = CE oy, zz —6,h, 
OW, o Oy, OW,, 
误差 的 梯度 


à —fd,, pa (vj) 
Er e Ae Min LD 


OE OE Oh, 


, = A A H 
OW, Oh, Ow, 








方法 和 输出 层 的 推导 完全 一 样 : 


= -(d,, E Voi ) Ji = d. E Jai ) f (y,) x E 








^] ^]. 
eh, ch, 


x4 7 
ae > (d, — f (w,,h, +5,))° oh, 


oh, ch, 


eh, 
eh, 





—-(ds IAS HSM 


= —0owinf (vi) 
= ő; 


2 





Ow, OW, 
^ 
CE 
一 一 Ó h X; 
Cw 
ih 


误差 的 梯度 





Ô =(Ö Wp) f (hj) 
(3) 权 值 修正 。 


隐 含 层 更 新 ; 
Wio = Wi +116,h, 
输出 层 更 新 : 


其 中 NN 表示 第 N 次 迭代 ，N+1 表 示 第 N+1 次 迭代 。 


整个 BP 网 络 的 训练 过 程 我 们 用 通俗 的 话 解释 一 下 。 


首先 先 设置 两 僚 w 作 为 两 层 网 络 各 目的 “ 超 平面 ”的 系数 ， 然 后 输入 
一 次 完整 的 训练 过 程 ， 就 会 有 一 个 误差 值 出 现 ， 因 为 给 出 的 w 很 可 能 


SÉ. 


Dp 











接着 就 是 一 次 一 次 地 进行 w 的 调整 。 调 整 方法 是 ， 首 先 用 类 似 最 小 
二 乘法 的 方式 ， 找 到 一 个 误差 和 上 自 变 量 的 关系 ， 然 后 求 误差 极 值 。 误 差 
极 值 存 在 的 点 就 是 误差 最 小 的 点， 这 和 回归 分 析 的 最 小 二 乘法 思路 几乎 
一 样 。 








只 是 在 最 后 的 Wo = wis nó. qw = Wo +NO,%, 两 个 公式 里 ， 用 的 
是 试探 性 的 方法 。+76,% 和 +75 是 一 种 试探 的 < 步 长 ”， 第 一 次 分 别 设 
置 了 wpo 和 win ， 如 果 有 误 普 ， 就 试 痢 往 误 差 小 的 一 边 “ 走 一 步 ”， 如 宋 还 
不 够 小 就 再 “ 走 一 步 *， 这 就 是 一 次 一 次 友 代 的 目的 。 最 后 找到 一 个 误 关 
满足 要 求 的 点 ， 把 这 一 点 的 wpo 和 win 都 记录 下 来 ， 网 络 就 训练 完毕 
ae 
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度 下 降 法 。 


15.4.4 “示例 


这 里 给 出 一 个 具体 的 BP 神经 网 络 训 练 和 使 用 的 示例 。 





在 一 些 经 典 的 有 关 BP 神 经 网 络 的 应 用 中 都 会 看 到 关于 手写 识别 的 
算法 。 这 里 用 它 入 手 来 感受 一 下 BP 神经 网 络 工作 的 过 程 。 实 验 流程 如 
Pe 


(1) 准备 训练 图 片 。 
(20 模型 训练 。 
(3) 判定 验证 。 
具体 操作 如 下 。 
(1) 准备 训练 图 片 。 


准备 如 图 15-12 所 示 的 6 组 不 同 字体 、 不 同 颜 色 、 不 同 大 小 的 数字 。 
在 这 里 我 是 用 EXCEL 来 做 的 ， 大 家 目 己 在 实验 的 过 程 中 也 同样 可 以 寻 
求 其 他 的 方法 。 


(2) 把 这 些 数 字 所 在 的 方 格 ， 一 共 60 个 ， 都 保存 成 BMP 位 图 格式 
的 图 片 文 件 。 文 件 命 名 时 ， 从 上 到 下 用 A、B、C、D、E、F 来 表示 组 


|, H1. 2、 ds 44 5s 6. Z5 8. 9、 0 来 表示 数字 ， Bl 


BHBBBBBBB 
(112[3[415161718|9]0 


图 15-12 训练 图 片 





Al.bmp. A2.bmp. A3.bmp. ...... ~ A9.bmp. AO.bmp. 
B1l.bmp. B2.bmp. B3.bmp. ...... ~ B9.bmp. BO.bmp. 
F1.bmp. F2.bmp. F3.bmp. ...... ~ F9.bmp. F0.bmp. 


还 可 以 考虑 用 英文 字符 “A”、 «p». “C”»” 作 为 识别 对 象 ， 还 可 以 考虑 


用 中 文 的 “ 甲 ””“ 乙 ”、“ 丙 ”等 汉字 作为 识别 对 象 ， 原 理 是 完全 一 样 的 。 





(3) 对 图 像 进 行 二 值 化 处 理 。 图 像 本 喘 是 由 很 多 像 系 扣 构 成 的 ， 


FEA BI, fEFHIT]IE32x32/ RAEN. RE— I PR ER A ABA PARSE 
值 ， 灰 度 值 是 0，255] 区 间 的 一 个 整数 值 。 一 个 点 的 灰 度 越 靠近 255， 则 
说 明 这 个 点 颜色 越 深 ， 反 之 如 果 一 个 点 的 灰 度 越 靠近 0， 则 说 明 这 
颜色 越 浅 。 


需要 通过 图 像 二 值 化 处 理 把 所 有 的 图 片 变 成 二 值 化 后 的 图 片 ， 也 就 
征 每 个 像素 点 做 一 个 “ 非 黑 即日 ?的 归 类 设置 ， 要 么 设置 成 黑色 ， 要 么 设 
置 成 白色 。 





def convert to blackwhite < 


image. 


name» 


image = image.convert: 


"| "5 


image. save ( 


"new_"+name) 


image = image.point ( 


lambda x: 


WHITE if x>128 else BLACK) 


image = image.convert ( 


image.save: 


经 过 上 面 这 段 代 码 的 处 理 ， 所 有 的 图 片 文 件 都 已 经 变 成 了 二 值 化 后 
的 图 片 ， 每 张 图 片 中 的 每 个 像素 都 是 非 黑 即 白 ， 如 图 15-13 所 示 。 


图 15-13 ”二 值 化 后 的 图 片 





注意 上 面 代 码 中 x>128 这 个 部 分 。 虽 然 可 以 选择 0 到 255 中 的 任何 值 
作为 判断 黑白 的 分 水 岭 ， 但 是 选择 时 要 注意 ， 如 果 这 个 值 设 置 得 太 高 ， 
那么 很 多 颜色 浅 的 训练 样本 就 会 丢失 信息 ， 导 致 模型 失真 。 如 有 果 设 置 得 
太 低 ， 那 么 如 果 图 片 背景 的 颜色 不 是 白色 ， 而 是 有 一 些 浅 颜色 的 背景 唉 
声 ， 那 么 这 些 点 就 会 被 当成 有 效 信息 来 训练 模型 ， 同 样 会 误导 模型 。 具 
体 选 多 少 需要 根据 实际 生产 生活 中 的 具体 情况 去 分 析 ， 这 里 仅 作 
参考 。 

















然后 就 可 以 把 图 片 一 个 一 个 传递 给 训练 算法 做 训练 了 ， 传 递 时 还 是 
一 个 癌 量 Vv 和 分 类 f Cv) 之 间 的 关系 。 


以 new_F5.bmp 这 个 图 片 为 例 ， 如 图 15-14 所 示 ， 这 个 图 片 在 32x32 像 
素 的 位 图 模式 下 放大 来 看 如 图 15-14 (a) 所 示 ， 看 上 去 很 模糊 ， 因 为 边 
缘 上 的 一 些 为 了 产生 视觉 过 渡 效 果 的 中 间 色 也 被 二 值 化 成 了 黑色 。 





(a) 二 值 化 后 的 图 片 (b) 将 图 片 的 每 个 2 x2 像素 
作为 1 个 基本 输入 单位 


图 15-14 new_F5.bmp 图 片 





将 32x32 像 素 的 图 片 的 每 个 2x2 像 素 作 为 1 个 基本 输入 单位 ， 这 样 一 
来 ， 就 有 16x16 个 基本 输入 单位 了 ， 也 惑 是 256 个 基本 输入 单位 。 





那么 输入 回 量 就 可 以 确定 格式 了 ， 整 个 图 从 左上 到 右 下 每 一 个 单位 
都 作为 一 个 v 的 维度 ， 这 样 输入 的 训练 向 量 v 就 是 一 个 拥有 256 个 维度 的 
回 量 了 。 每 个 维度 的 值 的 确定 如 图 15-15 所 示 。 


图 15-15 ”确定 每 个 维度 的 值 


这 4 个 像素 中 的 黑色 像 系数 作为 维 肛 值 就 可 以 了 ， 例 如 上 面 这 4 个 输 
入 单位 的 像素 颜色 分 别 就 对 应 着 1、2、2、0 这 4 种 输入 ， 以 此 类 推 ，256 
个 维度 的 值 都 能 确定 下 来 。 刚 刚 这 个 5 就 可 以 转化 成 这 样 一 个 256 维 的 同 


n 
esl 


0 0 0 0 000000000000 


而 5 对 应 的 分 类 疝 量 可 以 设置 为 


0000100000 


以 此 类 推 ，0 对 应 的 是 


0000000001 


7 对 应 的 是 


0000001000 


这 样 一 来 ， 所 有 的 图 片 回 量 和 所 有 的 图 片 对 应 的 数字 分 类 都 能 够 一 
一 对 应 起 来 ， 把 这 些 训练 样本 按照 FANN 的 要 求 存 入 文件 ， 用 下 面 的 代 














码 〈 注 意 不 是 把 图 片 直接 传递 给 FANN 去 做 运算 ， 是 数字 向 量 文 本 ， 
FANN 的 安装 请 见 附录 E) : 





#make_training_data.py 
f = open < 


'train.data'. 


'wt'5 


print >>f, 


len < 


result), 


256, 


10 
for input, 


output in result: 


print >>f, 


input 
print >>f, 


output 





开始 训练 : 





Ztrain ann.py 
connectionRate = 1 uem 





100%) 


learningRate = 0.008  # 学 习 率 为 


0.008 
desiredError = 0.001  # 期 望 错误 率 为 


0.001 
maxIterations = 10000  # 最 多 进行 


10 QOQ00 次 迭代 


iterationsBetweenReports = 100  # 每 间隔 





工 09 次 报告 一 下 学 习 结果 


inNum- 256 ”#256 个 神经 元 





hideNum = 64  # 隐 藏 层 为 


64 个 神经 元 


outNum-10  # 输 出 层 有 


10 个 神经 元 


class NeuNet « 


neural net). 


def | init ( 


self): 


neural_net.__init__ < 


self» 


neural net.create standard array: 


inNum. 


hideNum. 


outNum) ) 


def train on filec« 


self. 


fileName) : 


neural net.train on file: 


self. 


fileName 


maxIter-ations. 


iterationsBetweenReports. 


desiredError» 








if name == " main 





ann = NeuNet © 


ann.train on file: 


"train.data") 


# 读 取 训 练 向 量 文件 


ann. Save ( 


"number_recognize.net") 


# 将 模型 存储 到 文件 





一 般 不 会 下 到 10000 次 才 满 足 条 件 退 出 ， 几 百 次 就 已 经 让 误 盈 率 低 
于 期 望 误 差 的 0.001 了， 这 时 训练 自动 会 结束 。 





#test_recognize.py 
if name == " qain ". 





ann = NeuNet © 


ann.create from file: 


"number recognize.net") 


# 读 取 模 型 文件 创建 分 类 模型 〈 网 络 ) 





data = read test data o 


# 读 取 测 试 数 据 


for k, 


v in data.iteritems o. 


k = string to list: 


v = string to list: 


V) 


result = ann.run« 


print euclidean distance: 


result) 








Boa fi Htest. recognize.pyi A — Ete 23 2S BJ [8] ARSC F, FE US 
结果 。 这 个 文件 就 是 由 一 个 或 多 个 竺 分 类 的 图 片 文件 各 目 经 过 加 量化 变 
成 的 256 维 回 量 组 。 输 出 的 结 末 也 是 和 符 分 类 问 量 一 一 对 应 的 一 个 或 多 


个 待 分 类 的 结果 。 











一 般 来 说 ， 训 练 的 样本 越 多 ， 数 字 书 写 的 样式 越 丰富 ， 分 类 就 越 准 
确 。 我 们 在 这 个 环节 可 以 自己 和 神经 网 络 做 个 小 游戏 ， 看 看 翟 改 扭 扭 的 
阿拉 伯 数 字 小 网 络 买 不 买账 ， 如 果 不 买账 那 就 继续 拿 这 些 下 在 扭 扭 的 数 


字 继 续 训 练 它 ， 学 会 了 为 止 。 


15.5 PORE mL 


玻 尔 兹 曼 机 (Boltzmann Machine) 最 经 典 的 应 用 是 用 来 解决 货 郎 担 
问题 。 在 前 面 遗 传 算法 的 部 分 介绍 过 TSP 问 题 ，Traveling Salesman 
Problem， 即 旅行 商 问题 ， 也 叫 货 郎 担 问题 。 货 郎 担 问题 用 遗传 算法 是 
可 以 解决 的 ， 某 些 介绍 遗传 算法 的 材料 中 也 对 玻 尔 兹 曼 机 和 模拟 退火 算 
法 做 了 介绍 。 玻 尔 效 曼 机 的 网 络 模型 与 BP 神 经 网 络 模型 的 结构 没有 什 
么 区 别 ， 也 可 以 有 两 层 或 者 多 层 ， 只 是 训练 的 方式 不 太一 样 。 











15.5.4 退火 模型 


模拟 退火 算法 (Simulated Annealing, SA) 最 早 的 思想 是 由 梅 特 罗 
波 利 斯 CN.Metropolis) 等 人 于 1953 年 提出 。 到 了 1983 年 ， 柯 克 帕 特 里 
w (S.Kirkpatrick) 等 人 在 研究 优化 组 合 问题 时 发 现 ， 组 合 优化 求解 极 
小 值 与 金属 热处理 工艺 中 的 退火 过 程 具有 很 大 的 相似 性 ， 于 是 他 们 创造 
了 模拟 退火 算法 。 





退火 是 金属 材料 热处理 中 使 用 的 一 个 名 词 ， 表 示 把 钢铁 缓慢 烧 热 到 
一 定 温 度 后 保持 一 段 时 间 ， 然 后 再 慢 慢 以 一 定 的 速度 把 温度 降下 来 。 








退火 这 个 过 程 在 物理 学 上 是 有 原理 解释 的 ， 大 概 过 程 是 ， 一 开始 ， 
金属 内 部 原子 和 原子 之 间 是 有 一 定 的 斥 力 和 引力 的 ， 这 样 形 成 了 一 定 的 
势能 《有 的 材料 上 又 叫 内 能 或 者 应 力 ) ， 这 是 一 种 相对 不 稳定 的 状态 。 
通过 加 热 的 过 程 ， 让 大 量 的 原子 开始 运动 离开 原来 的 位 置 ， 然 后 随 着 温 
度 的 降低 ， 原 子 的 运动 速度 也 没有 原来 那么 快 了 ， 最 后 达到 稳定 的 状 
态 ， 而 这 个 稳定 的 状态 通常 都 是 比 一 开始 的 状态 势能 要 低 的 。 退 火 之 后 
Ne PAW), RARER, WÄEREN. WS aR UN 
退火 后 的 金属 性 能 ， 通 常 退 火 会 进行 儿 次 。 

















如 末 觉 得 从 烁 钢 的 角度 不 好 理解 ， 那 就 理解 为 在 一 个 感 部 不 规则 的 
大 管 筹 里 有 很 多 形状 不 规则 的 积木 。 在 不 做 特殊 处 理 的 情况 下 ， 积 木 中 





间 其 实 是 有 活动 余地 的 ， 在 上 面 放 任何 东西 也 都 会 因为 积木 有 可 能 发 生 
移动 而 变 得 不 稳固 。 和 希望 更 稳固 怎么 办 ? 最 直接 的 想法 是 把 管 筹 管 一 

管 ， 让 这 些 积木 跑 到 更 稳固 的 状态 上 去 ， 通 常 跑 到 稳固 状态 上 的 积木 也 
不 容易 再 出 来 。 这 样 最 后 停止 时 倍 算 里 的 积木 堆 就 比 原来 的 积木 堆 要 更 
稳定 ， 更 抗 压 。 要 想 让 积木 堆 尽 可 能 稳定 ， 多 管 几 次 即 可 ， 直 到 看 上 去 
积木 堆 的 体积 不 再 变化 了 《图 15-16) 。 











图 15-16 积木 从 不 稳定 到 稳定 


EAE EXE. MERRER, Fuit SCRI ERR T. XX 
个 解 就 是 全 局 最 优 解 。 这 种 思路 我 们 在 遗传 算法 里 也 介绍 过 。 


15.5.2 PORE mL 


1868F, PRL AY A ZO BE Fis R= (Ludwig Edward 
Boltzmann)〉 在 研究 气体 热平衡 统计 力学 中 给 出 一 个 玻 尔 兹 曼 因 子 : 











其 中 ，e 是 目 然 常数 ，E; 是 状态 i 的 能 量 ，ks EKKA HA Te 
当时 的 绝对 温度 〈 绝 对 零度 是 零下 273C ) 。 波 尔 兹 曼 因 子 在 使 用 时 通 
常 是 用 来 比较 同一 温度 之 下 ， 系 统 所 处 两 个 状态 概率 的 比值 。 
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把 这 个 时 候 的 温度 T、 常 数 e 和 kp 代 进 去 ， 这 个 比值 和 这 两 个 能 量 
的 差 做 e 的 指数 的 寡 函 数值 成 正比 。 可 以 肯定 的 是 ， 在 T 一 定时 ， 两 个 能 
量 的 差 越 大 ， 这 个 比值 就 越 大 ， 也 就 是 在 两 个 状态 下 的 概率 的 比率 越 
大 ， 状 态 为 state2 的 概率 越 大 。 





1 
BEARRA pee 9 来 看 ， 这 个 函数 能 很 好 地 把 多 维 超 
平面 和 二 项 分 布 结合 起 来 。 对 于 分 类 也 确实 只 有 两 种 结果 ， 要 么 属于 
(输出 1) ， 要 么 不 属于 输出 0) ， 


输出 1 时 ， 概 率 函 数 





l 
pv) 3 -(w"v+b) 
l+e 7 
输出 0 时 ， 概 率 函 数 
] 一 本 
pv) = —(w! y+) 
l+e 7 
所 以 两 个 状态 的 比值 
] 
zo ve) zu 
pu), Tig $ gr 
一 piv) Is l 
—(wi y+) 
[Ite 7 


toe ve S I RIS TP BORK BAL, VEE 
El] ew! 为 多 少 ， 以 及 T 为 多 少 才能 满足 尽量 少 地 误 判 。 





B 1 
根据 函数 "Fe 的 模型 ，t 前 面 的 系数 绝对 值 越 大 ， 曲 线 越 立 
陡 ， 系 数 绝对 值 越 小 曲线 越 平缓 ， 所 以 T 这 个 温度 的 选择 也 是 要 进行 相 
应 考虑 的 ， 不 同 的 是 ， 由 于 取 了 倒数 ，T 越 大 曲线 越 平 级， 越 小 曲线 越 


3E BE: 
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pv) . E 





l- p(v) 


实际 的 训练 过 程 如 下 。 


(1) 先 设置 一 组 w1 、b 和 T， 这 个 初始 的 T 叫 Tu , Tg 设置 得 大 一 
EK 


(20 然后 每 一 个 v 都 能 计算 出 其 对 应 的 分 类 结果 的 概率 比率 情况 。 
如 末 是 1， 则 表示 这 个 v 被 判断 为 “属于 该 分 类 ”的 概率 和 “不 属于 该 分 
类 ”的 概率 一 样 大 ;大 于 1 且 越 大 ， 则 说 明 v 倍 判断 为 “< 属于 该 分 类 ”的 概 
率 越 大 ; 反之， 小 于 1 且 越 接近 0， 则 说 明 v 被 判断 为 “不 属于 该 分 类 ”的 
概率 越 大 。 








T. 
x T(k 1) = 一 一 一 Y XY A 一 、 ` He Lj 、 
(3) 通过 调整 T， 以 “mk+D (JE RETRE F ME 


火 的 过 程 。 有 的 资料 上 写成 ]g (k+1〉， 性 质 差不多 。 


(4) 当 发 现 连 续 帮 代 一 两 次 后 T 的 变化 没有 引起 明显 的 误 判 率 的 减 
小 ， 就 可 以 结束 。 


15.6 ” 卷 积 神经 网 络 


很 多 研究 者 喜欢 把 卷 积 神经 网 络 放 到 “深度 学 习 ”(Deep Learning ) 
的 范畴 来 介绍 。 这 里 将 卷 积 神经 网 络 放 在 神经 网 络 中 进行 介绍 ， 后 面 专 


B 
门 还 有 一 节 对 深度 学 习 进 行 讨论 。 





卷 积 神经 网 络 (Convolutional Neural Network, CNN) 是 一 种 前 馈 
神经 网 络 ， 它 的 人 工 神经 元 可 以 响应 一 部 分 覆盖 范围 内 的 周围 单元 ， 对 
于 大 规模 的 模式 识别 都 是 有 着 非常 好 的 性 能 表现 的 ， 尤 其 是 对 大 规模 图 
形 图 像 处 理 效率 极 高， 这 也 是 大 家 热衷 研究 这 类 网 络 的 重要 原因 。 说 到 
底 ， 卷 积 神经 网 络 还 是 一 个 分 类 器 ， 是 一 种 有 监督 机 器 学 习 的 工具 。 











在 20 世 纪 60 年 代 ， 美 国 神经 生物 学 家 Hubel 和 Wiesel 在 研究 猫 脑 皮 
层 中 用 于 局 部 敏感 和 方向 选择 的 神经 元 时 发 现 其 独特 的 网 络 结构 可 以 有 
效 地 降低 反馈 神经 网 络 的 复杂 性 ， 继 而 提出 了 卷 积 神经 网 络 。 现 在 ， 
CNN 已 经 成 为 众多 科学 领域 的 研究 热点 之 一 ， 特 别 是 在 模式 分 类 领域 ， 
由 于 该 网 络 避 免 了 对 图 像 的 复杂 前 期 预 处 理 ， 可 以 直接 输入 原始 图 像 ， 
因而 得 到 了 更 为 广泛 的 应 用 。 日 本 人 福 岛 邦彦 〈Kunihiko Fukushima) 
在 20 世 纪 90 年 代 提 出 的 新 识别 机 是 卷 积 神经 网 络 的 第 一 个 实现 网 络 。 随 
后 ， 更 多 的 科研 工作 者 对 该 网 络 进行 了 改进 。 

















一 般 来 说 ，CNN 的 基本 结构 包括 两 层 。 











一 层 为 特征 提取 层 ， 每 个 神经 元 的 输入 与 前 一 层 的 局 部 接受 域 相 
连 ， 并 提取 该 局 部 的 特征 。 一 旦 该 局 部 特征 被 提取 后 ， 它 与 其 他 特征 间 
的 位 置 关系 也 随 之 确定 下 来 。 


第 二 层 为 特征 映射 层 ， 网 络 的 每 个 计算 层 由 多 个 特征 映射 组 成 ， 每 
个 特征 映射 是 一 个 平面 ， 平 面 上 所 有 神经 元 的 权 值 相 等 。 特 征 映 射 结 构 
采用 影响 函数 核 小 的 sigmoid 函 数 作为 卷 积 网 络 的 激活 函数 ， 使 得 特征 
映射 具有 位 移 不 变性 。 





此 外 ， 由 于 一 个 映射 面 上 的 神经 元 共享 权 值 ， 因 而 减少 了 网 络 目 由 
参数 的 个 数 。 卷 积 神经 网 络 中 的 每 一 个 卷 积 层 都 紧 跟 独 一 个 用 来 求 局 部 
平均 与 二 次 提取 的 计算 层 ， 这 种 特有 的 两 次 特征 提取 结构 减 小 了 特征 分 
PP. 





CNN=E E JHOR VA LAS. ABBA LUE AH HH AS SETTE RS — EE. 
由 于 CNN 的 特征 检测 层 通 过 训练 数据 进行 和 学习 ， 所 以 在 使 用 CNN 时 ， 
避免 了 显 式 的 特征 抽取 ， 而 隐 式 地 从 训练 数据 中 进行 学 习 ; 再 者 由 于 同 
一 特征 映射 面 上 的 神经 元 权 值 相同 ， 所 以 网 络 可 以 并 行 学 习 ， 这 也 是 卷 
积 网 络 相 对 于 神经 元 彼此 相连 网 络 的 一 大 优势 。 疮 积 神经 网 络 以 其 局 部 
权 值 共享 的 特殊 结构 在 语 首 识别 和 图 像 处 理 方面 有 着 独特 的 优越 性 ， 其 
布局 更 接近 于 实际 的 生物 神经 网 络 ， 权 值 共享 降低 了 网 络 的 复杂 性 ， 特 
别 是 多 维 输入 同 量 的 图 像 可 以 直接 输入 网 络 这 一 特点 避免 了 特征 提取 和 
分 类 过 程 中 数据 重建 的 复杂 上 度 。 








为 了 了 解 郑 积 神经 网 络 的 实质 ， 下 面 简 单 介绍 一 下 卷 积 。 


15.6.1 卷 积 


EZ KRDI P, AER, JERNIA (Convolution〉 的 定义 一 一 一 
般 的 中 文 材料 里 还 是 习惯 用 卷 积 这 个 名 词 。 它 是 通过 两 个 函数 f 和 g 生 成 
第 三 个 函数 的 一 种 数学 算 子 ， 表 征 函 数 f 与 g 经 过 翻转 和 平移 的 重 登 部 分 
的 面积 。 











在 通信 工程 领域 ， 卷 积 是 非常 党 用 的 一 种 计算 方法 ， 通 常用 到 卷 积 
也 是 和 传 里 叶 变 换 有 关系 。 大 家 在 知 乎 上 去 找到 的 话 可 以 找到 很 多 对 卷 
积 的 解释 ， 有 不 少 形象 的 类 比 。 


卷 积 的 数学 定义 如 下 : 
h(x) — f(x)* (x) = | f (t)g(x — t)dt 


这 个 等 式 可 以 从 面积 的 角度 去 尝试 解释 一 下 。 





在 第 8 章 曾经 介绍 过 关于 逐 差 法 求 重力 加 速度 g 的 过 程 ， 其 中 有 位 移 
= [MOO .de ， 整 个 积分 式 的 含义 就 是 位 移 s 是 一 个 随 着 t 变 化 的 函数 ， 
而 整个 过 程 中 s 是 由 这 一 瞬间 的 速度 v CO. 和 了 瞬间 的 时 间 长 度 dt CAO. 相 
乘 而 来 的 。 这 里 面 有 一 个 非常 重要 的 概念 ， 就 是 积分 表示 的 是 面积 
函数 曲线 v CO 和 s=0〈 轴 ) 围 成 的 面积 。 在 上 述 卷 积 式 中 ， 就 是 
h (x) 和 y=0 (x4) 围 成 的 面积 。 














那么 这 个 积分 式 中 的 f CD g G-D 是 什么 昵 ? 其 实 是 ，f COO 先 不 
5], g CO 相当 于 g CO 函数 的 图 像 沿 着 y 轴 (t=0) 做 了 一 次 翻转 。 
g (xt) 相当 于 g CO 的 整个 图 像 治 着 t 轴 进行 了 平移 ， 辐 右 平移 了 x 个 
单位 。 





做 了 这 个 变换 之 后 ， 可 以 想象 这 一 共 是 有 两 个 函数 ， 一 个 是 固定 的 
函数 ， 一 个 是 滑动 的 函数 ， 求 它们 相 乘 之 后 围 起 来 的 面积 ， 滑 动 的 变量 
就 是 x。 如 图 15-17 所 示 ，f(t) 就 是 一 个 三 角形 ， 在 第 二 象限 是 一 条 过 
(-1, 0) 和 《0，1) 点 的 线段 ， 在 第 一 象限 是 一 条 过 (0, D M A, 
0) 点 的 线段 。 函 数 g CO 是 一 个 正方 的 脉冲 波 ，t 在 [1，2] 上 有 定义 ， 
在 这 段 区 间 里 g(t》=t。 函 数 g (xt) 是 左 侧 的 这 个 做 过 翻转 的 图 形 ， 

图 15-18 中 还 分 别 有 x=-2，x=-1，x=0，x=1，x=2 时 的 图 像 。 








可 以 观 凤 到 ， 在 这 个 不 定 积分 完成 后 ， 会 形成 两 个 函数 登 加 的 部 
分 ， 其 中 x 是 一 个 变量 。 假 设 x 为 0， 或 者 当 x 不 存在 ， 那 么 就 是 f(t) 和 
g C-O 这 两 个 函数 相 乘 后 和 y=0(t 轴 ) 围 成 的 面积 。 当 x 出 现 后 ，x 古 帮 
ag (- 图 像 左 右 平移 的 ， 刚 刚 也 看 到 这 个 图 像 的 变化 过 程 了 ， 那 么 会 
变 成 什么 样 ?简单 地 说 ， 这 个 函数 h 〈x) 的 值 就 是 求 一 个 面积 和 x 的 关 
系 ， 而 这 个 面积 就 是 函数 f CO Mg 〈x-t) 相 乘 后 的 曲线 和 y=0 (t 轴 ) FH 
成 的 面积 ， 其 中 目 变 量 是 x。 在 随 着 x 变化 的 移动 过 程 中 ， 由 于 g(x-t) 
移动 产生 的 h〈x)》 的 对 应 变化 束 是 整个 卷 积 公 式 的 意义 了 一 一 一 个 移动 
中 用 x 进行 取样 的 过 程 。 
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图 15-17 f (D Allg (t) 





图 15-18 PATS eR BS EL RE 





对 于 工学 层面 的 应 用 来 说 ， 卷 积 本 身 的 含义 以 及 推导 在 生产 生活 中 
通常 没有 机 会 接触 ， 读 者 在 脑海 里 形成 一 个 移动 过 程 中 做 乘积 的 印象 就 
足够 了 。 


15.6.2 ”图 像 识 别 


介绍 了 卷 积 的 数学 意义 ， 下 面 介 绍 卷 积 神经 网 络 的 应 用 过 程 。 





前 面 介绍 了 BP 神经 网 络 和 玻 尔 效 曼 机 ， 其 中 BP 神经 网 络 通常 是 一 
个 多 层 的 神经 网 络 系统 。 在 这 样 一 个 神经 网 络 中 ， 每 层 的 神经 节点 都 是 
共享 前 一 层 所 有 的 输入 项 的 ， 也 就 是 每 层 各 个 节点 的 g Cv) =wv+b 的 v 
都 是 一 样 的。 训练 也 是 一 次 一 次 进行 迭代 来 调整 各 个 w 的 值 。 





这 种 网 络 有 一 个 问题 ， 就 是 一 旦 输入 的 v 维 度 比较 大 ， 训 练 的 时 间 
都 是 几何 级 数 增长 的 ， 只 有 三 五 个 输入 时 训练 很 快 ， 输 入 多 达 三 五 百 个 
时 基本 就 没 办 法 在 能 够 忍受 的 时 间 内 训练 出 来 了 ， 而 在 图 像 识别 时 ， 一 
个 图 像 如 果 是 2048x1536， 也 就 是 3145728 个 像素 时 ， 已 经 完全 没 办 法 胜 
任 了 ， 这 还 不 是 高 清 图 片 ， 现 在 的 数码 相机 动 加 就 1600 万 像素 以 上 ， 这 
就 更 没 可 能 训练 了 。 


图 15-19 ”青丝 果 的 图 片 


可 是 如 果真 的 想 这 么 做 ， 怎 么 办 ? 下面 将 讨论 如 果 想 识别 一 个 
2048x1536 像 素 的 图 片 将 面临 什么 问题 ， 以 及 怎么 用 卷 积 神经 网 络 解 
Rs 


我 们 以 青 苹果 的 图 片 为 例 ( 如 图 15-19 所 示 ) ， 如 果 想 要 用 神经 网 
络 对 这 个 2048x1536 像 素 的 图 片 进 行 建 模 处 理 ， 那 起 码 要 用 一 个 3145728 
维度 的 癌 量 来 进行 建 模 。 好 在 受到 猎 脑 皮层 研究 中 的 一 些 局 发 ， 有 了 局 
部 感知 学 习 的 一 些 尝试 。 


1. 设 计 卷 积 层 








卷 积 神经 网 络 有 两 种 很 特殊 的 功能 与 前 面 接触 的 神经 网 络 不 同 ， 可 
以 降低 参数 数目 。 


一 种 功能 : 局 部 感知 。 


一 般 认为 人 对 外 界 的 认 知 是 从 局 部 到 全 局 的 ， 而 图 像 的 空间 联系 也 
是 局 部 的 像素 联系 较为 紧密 ， 而 距离 较 远 的 像素 相关 性 则 较 弱 。 因 而 ， 
每 个 神经 元 其 实 没 有 必要 对 全 局 图 像 进行 感知 ， 只 需要 对 局 部 进行 感 
知 ， 然 后 在 更 高 层 将 局 部 的 信息 综合 起 来 就 得 到 了 全 局 的 信息 。 网 络 部 
分 连通 的 思想 ， 也 是 受 启发 于 生物 学 里 面 的 视觉 系统 结构 。 视 觉 皮 层 的 
神经 元 束 古 局 部 接受 信息 的 ， 即 这 些 神经 元 只 啊 应 系 些 特定 区 域 的 刺 


























激 。 如 图 15-20 所 示 ， 图 15-20 (a) 为 全 连接 ， 图 15-20 (bo 为 局 部 连 
接 。 


为 了 不 让 图 上 的 元 素 太 密 而 让 大 家 产生 不 快 的 感觉 ， 在 全 连接 情况 
下 只 是 示意 性 地 画 出 了 两 个 神经 元 ， 每 一 个 神经 元 都 连接 到 前 端 
2048x1536 个 像素 输入 点 上 ， 在 纵横 两 个 维度 上 都 做 连接 ;图 15- 
20 (b) 男 出 的 是 整个 图 形 的 一 部 分 。 


在 这 个 2048x1536 像 素 的 图 片 处 理 过 程 中 ， 本 来 需要 建立 一 个 
3145728 个 输入 项 的 多 节点 网 络 ( 每 个 节点 都 是 3145728 个 输入 项 ) ， 也 
就 是 2048x1536 个 神经 元 ， 每 个 神经 元 的 输入 又 有 参数 2048x1536 个 。 





但 是 在 做 过 局 部 感知 处 理 后 ， 就 可 以 把 节点 的 数量 减少 ， 同 时 也 可 
以 把 节点 的 参数 数量 减少 。 由 于 2048 是 21 ，1536 是 3x29 ， 因 此 设计 一 
个 节点 ， 这 个 节点 可 以 接收 16x12， 也 就 是 192 个 参数 。 为 了 看 得 清楚 ， 
将 局 部 放大 ， 临 近 的 16x12 个 像素 点 连接 到 一 个 神经 元 ， 每 个 神经 元 的 
接收 范围 都 和 左右 两 侧 的 神经 元 各 有 1 列 是 不 同 的 ， 其 他 15 列 是 相同 
的 ， 而 和 上 下 两 侧 的 神经 元 各 有 1 行 是 不 同 的 ， 其 余 11 行 是 相同 的 。 
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(a) 全 连接 (b) 局 部 连接 


[15-20 ”感知 方式 


在 这 种 情况 下 ，16x12 个 像素 单位 的 图 片 需要 1x1=1 个 16x12 的 神经 
元 来 进行 连接 ; 17x13 个 像素 单位 的 图 片 需要 2x2=4 个 16x12 的 神经 元 来 
进行 连接 ，18x14 个 像素 单位 的 图 片 需要 3x3=9 个 16x12 的 神经 元 来 进行 
连接 :以 此 类 推 ，2048x1536 个 像素 单位 需要 2033x1525=3100325 个 
16x12 的 神经 元 来 进行 连接 。 


仍然 使 用 3100325， 也 就 是 2033x1525 个 神经 节点 。 对 比 一 下 ， 这 种 
方法 的 改进 在 权 值 训练 上 有 怎样 的 提高 。 


按照 BP 神 经 网 络 ，3145728 个 输入 项 就 需要 3145728 个 节点 ， 每 个 
节点 需要 3145728 个 权 值 ， 也 就 是 需要 
3145728x3145728=9895604649984， 也 就 是 9 万 8 千 多 亿 个 输入 项 输入 到 
第 一 层 〈 也 叫 隐 含 层 ) 上 。 





按照 刚刚 的 方案 进行 改进 ， 有 2033x1525 个 神经 节点 ， 每 个 节点 能 
够 处 理 16x12 个 参数 ， 而 现在 实际 上 用 了 2033x1525x16x12， 也 就 是 
595262400 个 输入 项 就 解决 了 ， 对 比 原来 的 9 万 8 千 多 亿 个 数量 减少 为 
0.006%， 理 论 上 训练 速度 提高 至 少 5 个 数量 级 。 





卷 积 层 指 的 就 是 刚刚 设计 的 这 一 层 ， 而 这 16x12 个 参数 被 一 个 神经 
闻 点 进行 处 理 和 特征 值 提 取 的 过 程 操作 就 叫做 郑 积 操作 。 一 会 儿 后 面 我 
们 会 具体 讲解 怎么 来 做 这 个 过 程 。 








图 15-21 某 种 建 模 形式 


在 有 些 资料 里 还 会 看 到 如 图 15-21 所 示 的 建 模 形式 ， 也 就 是 说 一 个 
神经 元 不 仅 对 图 形 的 像素 是 否 有 着 色 《〈 二 值 化 后 的 黑色 ) 敏感 ， 还 对 每 
个 图 形 的 深度 Cheight) 敏感。 图 形 深度 是 RGB 瑚 色 的 值 的 深度 量化 ， 
即 对 在 计算 机 颜色 处 理 中 常用 的 红色 Red、 绿 色 Green、 蓝 色 Blue 进 行 参 
数 化 处 理 。 如 果 对 颜色 敏感 ， 在 刚刚 的 设计 中 ， 就 需要 对 每 个 神经 元 建 





模 ， 使 其 成 为 可 以 接受 16x12x3 个 参数 的 神经 元 。 如 果 不 敏感 ， 那 就 直 
接 把 图 像 二 值 化 后 再 做 训练 。 


第 二 种 功能 ， 参 数 共享 。 





上 述 例子 里 ， 即 便 不 需要 对 颜色 敏感 ， 还 是 需要 用 训练 来 调整 
595262400 个 权 值 ， 而 这 个 数量 虽然 比 前 面 9 万 多 亿 的 设计 好 很 多 但 是 仍 
然 很 多 。 那 么 这 时 就 需要 第 二 个 强大 的 功能 派 上 用 场 ， 那 就 是 参数 共 


—— 
[ 








在 刚刚 设计 的 卷 积 层 中 ， 每 个 神经 元 都 对 应 16x12 个 参数 ， 一 共 
2033x1525， 即 3100325 个 神经 元 ， 如 果 这 3100325 个 神经 元 的 192 个 参数 
都 是 相等 的 ， 那 么 实际 上 要 训练 的 参数 数目 就 变 为 192 了 。 





有 关 权 值 共享 的 问题 只 是 一 个 减少 参数 训练 复杂 上 度 的 技巧 ， 或 者 只 
是 方案 之 一 ， 而 非 必要 方案 ， 是 强行 设置 的 一 种 权 值 方式 。 可 以 把 这 
16x12 个 参数 看 成 是 提取 特征 的 方式 ， 该 方式 与 图 像 捕捉 的 位 置 无 天 。 
大 致 原理 : 视 沉 神经 在 捕捉 外 界 进来 的 光 信 号 时 是 不 加 分 别 的 ， 所 有 的 
神经 对 于 映射 到 它 上 的 信号 〈16x12 个 输入 ) 是 一 视 同 仁 地 看 待 的 〈 权 
值 一 样 ) ， 不 同 的 是 这 个 阵列 上 的 不 同 细胞 映射 的 信号 对 象 不 一 样 ， 只 
映射 它 最 邻近 的 对 象 。 








更 直观 地 ， 当 从 一 个 大 尺寸 图 像 中 随机 选取 一 小 块 ， 如 16x12 作 为 
样本 ， 并 且 从 这 个 小 块 样本 中 学 习 到 了 一 些 特征 ， 这 时 可 以 把 从 这 个 


16x12 样 本 中 学 习 到 的 特征 作为 探测 费 ， 应 用 到 这 个 图 像 的 任意 地 方 
中 。 特 别 地 ， 可 以 用 从 16x12 样 本 中 所 学 习 到 的 特征 与 原本 的 大 尺寸 图 
像 作 卷 积 ， 从 而 从 这 个 大 尺寸 图 像 上 的 任 一 位 置 获得 一 个 不 同 特征 的 激 
活 值 。 











图 15-22 ”一 个 3x3 的 卷 积 核 在 5x5 的 图 像 上 做 卷 积 


为 了 理解 方便 ， 在 做 示例 时 进行 简化 。 如 图 15-22 所 示 为 一 个 3x3 的 
卷 积 核 在 5x5 的 图 像 上 做 卷 积 的 过 程 。 每 个 卷 积 都 是 一 种 特征 提取 方 
A MA MIT, BABA SAT CHO ABTA AH Wa 
分 筛选 出 来 ， 即 用 石 侧 的 3x3 小 方块 从 上 到 下 从 大 到 右 地 套 左 侧 的 5x5 的 
大 方块 。 


分 别 得 到 9 个 矩阵 ， 如 图 15-23 所 示 。 





图 15-23 ”得 到 9 个 矩阵 
假设 设计 的 卷 积 核 也 是 一 个 矩阵 ， 如 图 15-24 所 示 。 


这 个 卷 积 核 输出 的 结果 定义 为 用 卷 积 结果 和 矩阵 和 卷 积 核 做 内 积 的 形 
式 : 
g(v)2wv 
其 中 v 是 一 个 卷 积 结果 和 窍 阵 ，w 是 卷 积 核 ， 那 么 整个 计算 就 变 成 了 
数 方 格 的 问题 ， 也 束 是 这 9 幅 局 部 图 对 应 的 输出 就 变 成 了 如 图 15-25 所 示 
MJERE. 








15-24 ” 卷 积 核 





图 15-25 ”对 应 的 输出 


到 这 里 卷 积 层 的 工作 就 已 经 完成 了 ， 就 是 通过 这 种 从 左 到 右 从 上 到 
下 的 平移 来 看 平移 过 程 中 卷 积 核 的 范围 内 应 该 提取 哪些 特征 值 。 这 个 过 
程 似曾相识 ， 在 BP 神经 网 络 中 也 同样 接触 过 ， 只 是 当时 用 的 网 络 是 全 
连接 方式 。 

建议 卷 积 层 的 神经 元 节点 的 接收 输入 有 大 部 分 重合 ， 这 里 重 秋 的 部 
分 达到 了 6" 五 ， 即 一 个 神经 卷 积 的 16 列 感知 对 象 中 有 15 列 被 其 旁边 临 
近 的 神经 元 所 感知 ，12 行 感知 对 象 中 有 11 行 被 其 劳 边 临近 的 神经 元 所 感 
知 ， 重 准 比 例 大 约 为 86%， 也 可 以 尝试 其 他 重 双 比例， 这 不 是 一 个 一 成 
不 变 的 值 。 


2 .设计 采样 层 





采样 层 也 叫 池 层 〈《Pooling) ， 它 的 目的 是 将 前 面 卷 积 层 输出 的 特征 
提取 值 进行 量化 。 


这 种 层 的 作用 是 继续 对 临近 的 输入 点 进行 特征 提取 ， 算 法 设计 也 不 
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层 输出 的 矩阵 继续 进行 特征 化 。 








图 15-26 ”采样 层 


以 上 述 卷 积 层 作 为 输入 ， 可 以 笃 试 做 一 个 2x2 单 位 的 采样 层 ， 即 用 
右 侧 的 2x2 小 方块 从 上 到 下 从 左 到 右 地 套 左 侧 的 3x3 的 大 方块 ， 如 图 15- 


26 上 所 示 。 





图 15-27 ”结果 和 矩阵 


这 样 就 可 以 得 到 如 图 15-27 所 示 的 矩阵。 


每 一 个 市 把 是 求 4 个 输入 的 平均 值 ， 这 样 根 据 采 样 层 的 输入 视图 求 
平均 则 分 别 得 到 输出 : 


(3+3+4+4) +4=3.5 


(3+3+4+3) +4=3.25 


(4+4+5+4) +4=4.25 


(44+3+4+3) +4=3.5 


这 就 是 采样 层 输 出 的 结果 。 


同样 的 方式 可 以 应 用 于 更 大 的 图 片 处 理 ， 如 2048x1536 像 素 的 图 
片 。16x12 的 卷 积 核 和 3x3 的 卷 积 核 原理 完全 相同 。 


在 例子 中 ， 采 样 层 的 神经 元 节操 的 接收 输入 有 部 分 重合 ， 这 里 用 
2x2 的 采样 节点 去 做 采样 重 登 的 部 分 达到 了 1/2， 也 可 以 尝试 不 重 有 登 或 者 
以 其 他 比例 进行 重 登 。 





3. 完 整 网 络 设 计 





在 了 解 了 卷 积 层 和 采样 层 的 工作 方式 后 ， 要 对 完整 的 苹果 图 片 进行 
识别 ， 卷 积 网 络 可 以 设计 为 如 图 15-28 所 示 的 形式 。 





图 15-28 ”神经 网 络 


卷 积 层 C1: 可 以 设计 2033x1525， 即 3100325 个 神经 元 节点 。 如 同 
在 前 面 讨 论 过 的 连接 方法 。 





采样 层 S1: ”可 以 采用 不 重合 的 方式 进行 采样 ， 设 计 使 用 输入 参数 
为 16x12 的 神经 节点 ， 那 么 需要 128x128， 即 16384 个 节点 。 








卷 积 层 C2: 这 里 可 以 再 设计 一 层 卷 积 层 进行 卷 积 处 理 ， 设 计 使 用 
输入 参数 为 16x16 的 神经 节点 ， 需 要 113x113， 即 12769 个 节点 。 


采样 层 S2: 可 以 继续 采用 不 重 琶 的 方式 进行 采样 处 理 ， 可 以 尝试 
采用 8x8 的 输入 点 数量 ， 那 么 需要 15x15 个 神经 元 节点 。 


输出 层 O: 最 后 的 输出 层 采 用 全 连接 方式 。 由 于 前 段 的 采样 层 S2 输 
出 为 15x15， 所 以 这 一 层 应 该 采用 15x15 个 节点 ， 每 个 节点 有 15x15， 即 
255 个 参数 。 这 255 个 参数 可 以 考虑 用 高 位 128 位 都 标记 成 1， 低 位 127 位 





都 标记 成 0 来 表示 苹果 图 片 的 分 类 


4. 训 练 


可 以 准备 1000 张 甚至 更 多 的 苹果 图 片 ， 痢 进行 癌 量化 。 然 后 像 在 前 
面 识别 图 片 那 样 来 做 训练 即 可 。 








但 是 这 个 过 程 可 能 会 非常 漫长 ， 因 为 节点 数量 和 权 值 实在 是 太 多 


这 个 方法 在 PC 上 处 理 2048x1536 像 素 的 图 片 是 有 学 术 意 义 的 ， 但 是 
以 目前 个 人 PC 的 处 理 水 平 要 想 商 用 是 很 困难 的 。 何 况 这 个 例子 中 做 的 
还 仅仅 是 二 值 化 后 的 苹果 图 形 的 识别 而 不 是 RGB 深度 3 通道 下 的 识别 ， 
可 想 而 知 这 个 训练 过 程 更 为 漫长 。 


一 般 来 说 ， 越 复杂 的 图 形 图 像 训 练 需要 的 样本 越 多 。2012 年 6 月 
Google 最 神秘 的 部 门 Google X 通 过 1.6 万 片 处 理 器 ， 模 拟 10 亿 多 条 连接 ， 
构建 了 一 个 庞大 的 系统 ， 用 于 模拟 人 类 的 大 脑 神经 网 络 。 借 助 “ 谷 歌 大 
脑 *"， 无 须 接受 人 类 的 任何 培训 和 指令 ， 就 可 以 利用 内 在 算法 从 海量 数 
据 中 自动 提取 信息 ， 学 会 如 何 识别 猫 。 这 是 人 类 有 史 以 来 在 机 器 学 习 

《也 有 人 说 这 叫 深 度 学 习 ) 中 所 做 的 最 有 益 的 尝试 之 一 。 面 对 从 
YouTube 视 频 中 找到 的 1000 万 张 数字 照片 ， 这 个 “谷歌 大 脑 ? 能 从 中 自主 
学 习 猫 的 长 相 。 然 后 就 可 以 自己 对 其 他 给 它 的 图 片 进行 判断 一 一 “这 张 
是 猫 。 这 张 不 是 猎 。” 这 种 自学 成 才 的 能 力 别 说 在 当时 ， 就 是 在 现在 也 
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声 首 做 自动 识 
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15.7 深度 学 习 


深度 学 习 (Deep Learning) ， 我 们 在 这 里 不 打算 讲 太 多 ， 只 是 提 一 
下 我 对 这 个 名 词 的 理解 吧 。 





深度 学 习 不 是 一 种 算法 ， 而 是 一 种 新 的 境界 ， 说 它 是 新 的 领域 也 不 
合适 ， 因 为 确实 也 不 是 新 领域 ， 研 究 的 问题 还 是 老 问 题 。 





现在 研究 深度 学 习 的 人 人 很多， 深度 学 习 相关 的 框架 体系 也 有 很 多 ， 
如 深度 神经 网 络 (Deep Neuron Networks, DNN) 、 卷 积 神经 网 络 、 深 
度 信 念 网 络 (Deep Belief Networks, DBNO 和 递归 神经 网 络 (Recurrent 
Neural Network, RNN) 等 。 说 到 深度 学 习 ， 就 得 问 问 它 的 反面 “ 浅 度 学 
习 ” 说 的 是 什么 。 


相对 现在 提出 的 深度 学 习 的 概念 不 同 ， 过 去 研究 的 “ 浅 度 学 习 ” 更 多 
是 针对 结构 化 数据 的 学 习 和 研究 ， 还 有 半 结 构 化 数据 的 学 习 和 研究 ， 模 
型 简单 、 结 构 固 是 、 量 化 容易 ， 规 模 小 。 这 些 用 过 去 的 统计 、 概 率 、 一 
般 机 器 学 习 基 本 方法 都 能 得 到 比较 好 的 解决 方案 。 








但 是 随 着 计算 机 计算 能 力 的 发 展 ， 网 络 规模 的 逐渐 扩大 ， 和 存储 能 
的 不 断 提 高 ， 过 去 时 间 复 杂 拔 非常 高 的 不 可 行 的 方 采 ， 慢 慢 也 束 变 得 可 
行 了 ， 原 来 认为 解决 问题 不 能 成 行 的 思路 ， 慢 慢 也 就 变 得 能 够 成 行 了 。 
早 在 20 世 纪 七 八 十 年 代 各 国 的 高 级 实验 室 就 都 在 研究 能 不 能 做 大 规模 的 























模式 识别 ， 不 管 是 用 大 规模 的 神经 网 络 去 做 图 片 的 机 器 学 习 ， 还 是 做 手 
写 识 别 ， 这 些 答 试 都 是 做 过 的 。 关 键 不 是 当时 的 数学 家 建 模 能 力 有 问 
题 ， 而 是 人 硬件 不 够 强大 。 


这 些 深度 学 习 的 共同 点 基本 上 融 是 网 络 得 入 层 节点 多 ， 网 络 层次 
深 ， 文 持 的 分 类 种 类 多 而 复兴 。 大 部 分 还 是 围绕 着 神经 网 络 或 者 基于 神 
经 网 络 的 思路 来 发 展 的 ， 而 且 在 前 几 市 都 有 过 相应 的 接触 。 既 然 趋势 是 
文 持 分 类 种 类 多 而 复杂 的 学 习 方 向 ， 那 么 以 有 限 问 无 限 的 方 同 前 进 ， 以 
离散 同 连 续 的 方 癌 前 进 的 发 展 就 随 着 客观 条 件 的 成 熟 变 得 越 来 越 现 实 。 
所 以 也 看 到 在 边界 划分 比较 清晰 的 声音 识别 、 图 像 识别 、 棋 牌 博弈 等 领 
域 深度 学 习 的 效果 会 格外 好 ， 甚 至 有 时 候 让 人 了 叹为观止， 觉得 真正 的 人 
工 智能 可 能 离 人 们 越 来 越 近 。 











就 在 成 书 前 不 久 发 生 了 几 件 在 深度 学 习 方 面 比较 震撼 的 事情 。 

事件 一 : 一 杆 进 洞 的 高 尔 夫 机 器 人 。 

TNW 中 文 站 2016 年 2 月 11 日 报道 ， 一 台 名 为 LDRIC 的 高 尔 夫 机 器 人 
完成 了 一 杆 进 洞 。 而 1997 年 ， 传 奇 高 尔 夫 选 手 “ 老 虎 ” 伍 效 也 曾 在 这 里 完 
成 同样 的 一 击 。 据 称 LDRIC 是 “发 射 定 向 机 器 人 智能 电路 ”的 英文 缩写 ， 
同时 也 是 对 伍兹 的 名 字 “ 埃 尔 德 里 克 (Eldrick) ”的 致敬 。 








事情 二 : 围棋 AI 的 胜利 。 








英国 《自然 》 和 杂志 2016 年 1 月 28 日 封面 文章 称 ， 美 国 谷歌 公司 旗下 
的 人 工 智能 软件 “阿尔 法 围棋 ”(AlphaGo) 打败 了 欧洲 围棋 冠军 攀 座 





(专业 二 段 ) 。 而 在 不 久 的 将 来 ，AlphaGo 将 在 韩国 首尔 与 韩国 围棋 选 
手 李 世 石 九段 一 决 高 下 ， 李 世 石 是 近 10 年 来 获得 世界 第 一 头衔 最 多 的 棋 
手 ， 谷 歌 为 此 提供 了 100 万 美元 作为 奖金 。 








在 笔者 截稿 前 也 就 是 北京 时 间 2016 年 3 月 15 日 下 午 17 时 10 分 左右 ， 
李 世 石 九段 苦 斗 5 盘 ， 最 终 以 1 比 4 负 于 谷歌 的 人 工 智能 机 器 人 AlphaGo。 
这 不 仅 令 赛 前 断言 李 世 石 将 以 5 比 0 大 胜 人 工 智能 的 人 们 大 跌眼镜 ， 而 且 
也 大 大 提 振 了 人 们 对 于 人 工 智 能 发 展 的 信心 。 





这 两 个 事件 可 以 说 是 让 人 非常 兴奋 的 ， 同 时 也 让 很 多 人 感到 紧张 ， 
现在 人 工 智 能 的 发 展 让 人 们 对 机 器 人 越 来 越 敬 长 。 





确实 ， 这 些 原来 在 人 工 智能 领域 让 科学 家 感到 力不从心 的 问题 现在 
越 来 越 让 人 感觉 轻松 。 除 了 数学 科学 的 发 展 以 外 ， 硬 件 本 身 的 制造 能 力 
与 水 平 的 提高 ， 制 造成 本 的 下 降 ， 也 让 越 来 越 多 的 复杂 问题 变 得 简单 。 
然而 ， 这 些 问题 如 果 仔 细 观 察 可 以 发 现 ， 仍 然 是 一 些 边界 划 定 明确 的 问 
题 ， 不 管 是 打 高 尔 夫 球 的 机 器 人 ， 还 是 下 围棋 的 机 器 人 。 它 们 处 理 的 问 
题 对 比 人 所 处 理 的 问题 来 说 ， 依 旧 非 党 单纯， 模型 维度 单纯 ， 游 戏 规则 
也 单纯 ， 和 过 去 处 理 的 问题 来 对 比 只 是 数据 量 比较 大 而 已 ， 没 有 太 多 新 
鲜 的 东西 。 在 人 们 明确 告诉 计算 机 应 该 怎么 去 计算 ， 什 么 步骤， 什么 规 
则 ， 而 遗留 的 问题 仅仅 是 计算 量 的 情况 下 ， 计 算 机 完全 可 以 通过 分 布 式 





























计算 方式 来 进行 弥补 ， 并 逼近 或 超过 人 类 的 水 平 。 但 是 对 于 那些 人 类 现 
在 都 不 清楚 完 竟 应 该 怎样 告诉 计算 机 建 模 ， 应 该 用 怎么 样 的 步骤 来 计算 
的 场合 ， 计 算 机 是 没有 办 法 去 理解 问题 本 里 的 奥妙 的 ， 就 更 别 说 像 人 类 
这 么 丰富 协调 地 感知 和 对 应 反馈 





应 该 说 ， 现 在 的 深度 学 习 水 平和 真正 的 理想 的 人 工 知 能 相差 还 是 太 
悬殊 一 一 尽管 它 的 发 展 确实 很 迅速 ， 但 是 还 是 初级 、 割 裂 而 且 片 面 的 。 
真正 要 达到 像 人 这 样 智能 的 生命 体 的 水 平 ， 私 怕 只 有 让 计算 机 的 计算 单 
元 在 数量 级 上 与 人 的 大 脑 基 本 相当 ， 甚 至 要 超过 大 脑 几 个 数量 级 。 所 以 
担心 机 器 人 造反 的 事情 ， 等 到 这 个 前 提 实 现 再 开始 也 不 算 晚 。 





15.8 ”小 结 


在 学 习 了 回归 、 朴 素 贝 叶 斯 、 决 策 树 、 支 持 向 量 机 ， 以 及 本 章 讨论 
的 人 工 神经 网 络 以 后 ， 可 以 发 现 ， 这 些 算法 的 思路 都 有 一 个 共同 点 ， 说 
到 底 都 是 研究 多 维 向 量 空间 分 类 的 问题 ， 都 是 根据 众多 的 v Cas b c 
d，.…) 这 样 的 训练 样本 到 某 一 个 或 几 个 分 类 映射 的 关系 ， 判 断 新 的 给 
定 样本 的 分 类 归属 问题 。 








每 种 算法 都 有 目 己 优势 ， 也 都 有 目 己 的 局 限 性 。 这 就 好 比 一 个 很 大 
的 工具 箱 ， 里 面 有 电 饮 、 钢 饮 、 线 锯 等 各 种 锯 子 ， 它 们 都 是 饥 子 ， 都 是 
为 了 最 终 把 一 段 原木 变 成 一 件 精美 的 家 具 ， 但 是 每 种 工具 都 有 目 己 擅长 
的 场合 ， 还 有 一 些 自己 不 擅长 的 场合 。 人 们 要 做 的 事情 就 是 掌握 每 种 工 
具 的 优 缺 点 ， 所 谓 “ 太 有 所 短 寸 有 所 长 ”， 在 不 同 的 场合 选用 不 同 的 工 
具 ， 并 注意 同时 规避 不 同 工 具 的 问题 ， 这 样 吏 能 达到 事半功倍 的 效果 。 


























第 16 章 ”大 数据 框架 简介 


16.1 24MIN ABNER 


框架 (Frame) 是 一 个 在 计算 机 领域 常用 的 词汇 。 


熟悉 PHP、Java 或 者 Python 的 读者 对 这 个 词 肯定 非常 熟悉 ， 


Laravel、Spring、Django 等 都 是 著名 的 语言 开发 框架 。 





每 一 个 框 染 中 部 封 冶 了 大 量 的 工具 类 ， 它 的 最 大 作用 就 是 帮助 使 用 
者 节省 创建 工程 的 时 间 ， 把 大 家 共通 性 的 需求 和 问题 做 以 实现 。 这 样 创 
建 工 程 时 ， 程 序 员 就 只 需要 进行 类 似 拱 积木 式 的 工作 就 能 够 把 需求 完 
成 。 这 束 是 框架 的 作用 。 





大 数据 框架 与 此 类 同 ， 就 是 用 来 简化 数据 科学 家 和 数据 开发 工程 师 
编程 难度 的 一 种 工具 。 





按照 最 早 最 朴 系 的 方式 理解 大 数据 的 含义 : 大 数据 解决 的 就 是 单机 
无 法 处 理 的 数据 。 无 论 存 储 数 据 还 是 计算 数据 都 变 得 困难 无 比 ， 大 数据 
框架 的 出 现 就 是 为 了 解雇 这 个 问题 ， 让 使 用 者 可 以 像 使 用 本 地 主机 一 样 
使 用 多 个 计算 机 的 处 理 硕 ， 像 使 用 一 个 本 地 磁盘 一 样 使 用 一 个 大 规模 的 
存储 集群 。 这 样 可 以 让 科学 家 和 工程 师 把 精力 集中 在 目 己 的 业务 上 ， 在 
需要 并 行 计算 时 调用 大 数据 框架 的 应 用 程序 接口 CAPD ， 这 就 是 大 数 


PAEZ TE AA - 





生活 中 也 有 很 多 框架 的 例子 : 如 去 银行 办 理 业 务 ， 需 要 填写 不 同 的 
表格 ， 这 些 表 格 就 是 框 洪 化 的 典型 例子 ， 如 发 送 通 知 邮件 ， 会 有 通知 邮 
件 的 通用 格式 ， 只 需要 填写 时 间 、 地 点 、 人 物 、 事 件 .……… 这 些 框架 的 共 
通 特点 就 是 ， 只 需要 关注 多 态 化 的 事务 ， 把 这 些 个 性 化 的 信息 当做 参 
数 ， 共 通 的 部 分 已 经 做 成 了 框架 。 











大 数据 也 包含 很 多 种 类 的 框架 ， 一 般 分 成 两 类 ， 即 大 数据 计算 框 染 
和 大 数据 存储 框架 。 





大 数据 计算 框架 又 可 以 按照 执行 方式 分 成 两 类 : 一 类 是 执行 一 次 就 
结束 的 、 对 计算 时 间 要 求 不 高 的 离线 计算 框架 ， 另 一 种 是 对 处 理 时 间 有 
严格 要 求 的 实时 计算 框架 。 


离线 计算 多 用 于 模型 的 训练 和 数据 的 预 处理 ， 最 经 典 的 就 是 Hadoop 
的 MapReduce 方 式 了 ;而 实时 计算 框架 是 要 求 立即 返回 计算 结果 的 ， 快 
速 响应 请 求 ， 如 Storm、Spark Streaming 等 框架 ， 多 用 于 简单 的 累加 计数 
和 基于 训练 好 的 模型 进行 分 类 等 操作 。 


无 论 是 离线 计算 还 是 实时 计算 ， 痢 需要 持久 地 保存 大 量 的 清洗 过 的 
数据 和 计算 结 末 ， 这 就 需要 大 数据 存储 框架 来 解决 了 。 





经 典 的 Hadoop HDFS 束 具备 了 动态 扩容 以 及 见 余 化 存储 (存储 多 份 


数据 〉 的 能 力 。 这 样 既 能 保证 数据 源 增 大 时 用 户 仍 然 可 以 像 操 作 本 地 磁 
盘 一 样 操作 HDFS， 又 可 以 保证 计算 结果 的 安全 性 ， 它 是 在 大 数据 存储 
中 最 主流 的 解决 办 法 之 一 。 





除了 计算 和 存储 ， 在 完整 的 处 理 过 程 中 ， 会 加 入 一 些 NoSQL 存 储 和 
一 些小 工具 来 提升 用 户 的 使 用 体验 ， 毕 葛 世 界 并 不 是 全 部 由 结构 化 数据 
组 成 的 。 在 大 数据 计算 中 要 缓存 一 些 中 间 结 果 或 者 进行 快速 的 批量 写 入 
操作 ， 那 么 我 们 会 在 计算 和 存储 之 间 加 入 NoSQL 存 储 引擎 来 存储 需要 的 
结 末 。 再 配合 一 些 对 传统 SQL 优化 的 工具 ， 使 SQL 适用 于 体积 更 大 的 数 
据 ， 就 完成 了 大 数据 框 染 的 大 部 分 流程 了 。 下 面具 体 介 绍 这 些 第 用 的 框 














H 
AR. 


16.2 ”Hadoop 框 架 


Tf Hadoopf 


尔 作 框架 其 实 并 不 准确 ， 更 多 人 喜欢 称 


‘Hadoop 为 生态 


圈 ， 因 为 它 除 了 有 计算 和 存储 功能 外 还 提供 了 相当 多 的 组 件 ， 来 完成 大 


数据 方方面面 的 工作 。 


Hadoop 和 生态 圈 的 组 件 非常 多 ， 图 16-1 所 示 为 


Hadoop 1.0 环 境 中 的 生态 圈 组 成 ， 怜 虫 工具 、 集 群 化 存储 、 工 作 流 、 数 








据 流 、 交 互 式 脚 本 、NoSQL 数 据 库 、 数 据 仓库 、 数 据 挖掘 框架 ， 几 乎 是 
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图 16-1 Hadoop 生 态 





现在 在 生产 环境 中 ， 通 种 使 用 Hadoop 2.0 环 境 。 通 常 说 的 Hadoop 只 
要 


是 其 中 最 核心 的 框架 ， 主 要 分 为 以 下 4 个 部 分 。 


(1) Hadoop Common: 这 是 Hadoop 的 核心 功能 ， 是 对 其 他 的 
Hadoop 模 块 做 支撑 的 ， 里 面包 含 了 大 量 的 对 底层 文件 、 网 络 的 访问 ， 对 
数据 类 型 的 文 持 ， 以 及 对 象 的 序列 化 、 反 序列 化 的 操作 文 持 等 。 











(2) Hadoop Distributed File System (HDFS™ ) : Hadoop 分 布 式 
文件 系统 ， 也 就 是 上 面 提 到 的 HDFS， 它 用 于 存储 大 量 的 数据 。 


(3) Hadoop YARN: 一 个 任务 调度 和 资源 管理 的 框架 。 
(4) Hadoop MapReduce: 基于 YARN 的 并 行 大 数据 处 理 组 件 。 


请 注意 Hadoop 1.0 和 Hadoop 2.0 的 区 别 ， 如 图 16-2 所 示 。Hadoop 1.0 
环境 的 MapReduce 是 直接 运行 的 ，Hadoop 2.0 环 境 的 MapReduce 依 赖 于 
YARN 框 架 ， 在 YARN 框 架 启 动 后 ，MapReduce 在 需要 运行 的 时 候 把 任 
务 提 交 给 YARN 框 染 ， 让 YARN 框 染 来 分 配 资源 择机 运行 ， 这 是 两 者 最 
大 的 区 别 。 


Hadoop 1.0 


MapReduce 


(cluster resource management 


& data processing) 





(a) Hadoop 1.0 (b) Hadoop 2.0 


16-2 Hadoop 1.0 和 Hadoop 2.0 


一 般 把 Hadoop Common. HDFS, YARN, MapReduceiX [24 Zi 
称 为 Hadoop 框 架 ， 而 在 Hadoop 生 态 环境 中 还 有 进行 SQL 化 管理 HDFS 的 
Hive 组 件 ， 支 持 OLTP 业 务 的 NoSQL 分 布 式 数据 库 HBase 组 件 ， 进 行 图 
形 界面 管理 的 Ambari 组 件 等 ，Hadoop 生 态 圈 会 增加 越 来 越 多 的 软件 ， 
提高 软件 的 便利 性 。 


16.2.1 MapReduce 原 理 


之 前 介绍 了 Hadoop 生 态 圈 和 Hadoop 框 架 ， 相 信 读 者 对 Hadoop 是 什 
么 有 了 一 定 的 了 解 ， 那 么 在 Hadoop 框 架 中 最 著名 的 就 是 MapReduce 组 
件 ， 它 的 处 理 逻 辑 来 源 于 谷歌 的 上 昌 三 罗马 车 之 一 
MapReduce 是 解决 问题 并 行 任务 的 一 种 模型 ， 将 一 个 可 拆 解 的 任务 分 散 
到 多 个 计算 节点 进行 计算 ， 最 后 合并 计算 结果 。 

















MapReduce |! , 





例如 ， 现 在 需要 解决 一 个 问题 : 尽 可 能 以 比较 快 的 速度 统计 一 个 图 
书馆 在 书架 上 一 共 陈 列 了 多 少 本 书 〈 图 16-3) 。 





uw * 
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分 别 统计 然后 合计 LED. PRIEST 
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图 16-3 ARBRE CLUB» 


一 种 方法 是 ， 找 一 个 在 数 数 方面 有 超 高 本 领 的 人 ， 由 他 一 个 人 来 完 
成 ， 男 一 种 方法 是 ， 雇 用 一 大 批 资质 平庸 的 负责 统计 图 书 数量 的 人 和 一 
个 负责 分 配 任务 的 人 ， 由 分 配 任务 的 人 负责 划分 区 域 ， 确 保 每 个 人 都 分 
到 一 部 分 要 统计 的 书架 ， 不 重 不 漏 。 然 后 对 所 有 的 人 下 发 开始 统计 的 指 


令 ， 统 计 图 书 的 人 将 自己 负责 的 区 域 统计 完成 记录 到 纸 上 ， 所 有 统计 图 
书 的 人 上 交 统 计 结 果 后 ， 负 责 分 配 任务 的 人 将 所 有 人 的 统计 结果 进行 时 
加 ， 得 到 图 书 统计 的 结 采 。 如 果 中 途 有 人 因为 一 些 意外 原因 发 生计 数 终 
止 ， 那 么 就 再 派 一 个 人 前 去 重新 完成 他 未 完成 的 工作 任务 。 








不 难 想 象 ， 如 果 方 法 得 当 ， 后 一 种 方法 要 比 前 一 种 方法 徘 谱 一 些 。 


这 个 有 超 高 本 领 的 人 是 不 是 容易 被 找到 ， 他 一 个 人 会 不 会 有 失误 ， 
他 的 薪水 要 求 是 不 是 太 高 ， 这 些 问 题 的 可 控 性 会 变 得 非常 不 好 。 而 资质 
平庸 的 人 通常 在 市 场 供应 方面 不 会 让 我 们 那么 担心 ， 只 要 统计 的 方法 论 
和 调度 方式 没有 问题 ， 不 仅 这 种 方式 的 风险 更 小 ， 而 且 成 本 更 低 ， 速 度 
更 快 ，MapReduce 束 是 这 样 一 种 并 行 机 制 。 





下 面 从 辩证 的 角度 来 看 这 种 机 制 的 优点 和 缺点 。 


优点 如 下 。 





(1) 隐藏 大 量 技术 细节 。 开 发 人 员 不 需要 关注 容 灾 管理 、 负 载 均 
衡 和 并 行 计算 实现 的 代码 部 分 ， 只 需要 调用 相关 的 API， 设 置 参 数 即 
可 。 


(2) 可 伸缩 性 好 。 在 Map 阶 段 ， 可 以 实现 每 增加 一 合 服务 器 就 将 
计算 能 力 接 入 到 集群 里 ， 而 且 能 实现 在 集群 运行 时 添加 计算 节 氮 《一 般 
用 在 线 扩容 这 个 技术 名 词 来 描述 这 一 特点 ) 。 


缺点 如 下 。 


(1) 实时 性 差 。 和 磁盘 交互 频 紧 ,中间 要 多 次 将 计算 结果 保存 到 
磁盘 ， 使 实时 计算 能 力 大 打折 扣 。 











(2) 编程 习惯 需要 适应 。 需 要 将 在 学 习 《 数 据 结构 》 或 者 算法 理 
论 中 学 习 到 的 算法 实现 方式 转换 成 为 MapReduce 方 式 ， 编 程 时 需要 特意 
构建 这 种 程序 逻辑 。 而 且 这 种 方式 的 局 限 性 导致 并 非 所 有 的 问题 都 适合 
用 MapReduce 方 式 进行 解决 。 











虽然 有 不 少 缺点 ， 但 是 Hadoop 仍 然 是 目前 离线 计算 的 利器 ， 下 面 介 
绍 如 何 部 署 一 套 Hadoop 以 及 用 Hadoop 来 做 单词 统计 。 








[1] ”谷歌 的 旧 三 驾 马 车 是 GFS、MapReduce、BigTable， 新 三 芍 马 车 是 


Caffeine、Pregel、Dremel。 


16.2.2 ”安装 Hadoop 


本 节 主 要 介绍 在 CentOS 7 单机 环境 下 的 Hadoop 搭 建 过 程 。 
1. 准 备 Hadoop 需 要 的 软件 


(1) 安装 Java 软 件 包 。CentOS 7 发 行 版 本 默认 会 安装 Java 运 行 环 
境 ， 可 以 使 用 which 命 令 来 确认 Java 是 否 安装 ， 命 令 如 下 : 





$ which java 
/usr/bin/java 





也 可 以 自行 下 载 和 安装 目 己 需要 的 Java 版 本 ， 建 议 Java 版 本 高 于 
7.0。 


这 里 使 用 从 官方 网 站 下 载 的 最 新 版 本 的 Java 开 发 包 ， 下 载 地 


hb: http://www.oracle.com/technetwork/cn/java/javase/downloads/index.htm 


将 下 载 好 的 安装 包 安 装 到 指定 位 置 ， 这 里 以 保存 到 /opt 目 录 下 为 
例 ， 操 作 命令 如 下 : 





$ tar zxf java-jdk-7.0.tgz 
$ mv java-jdk-7* /opt/java 








设置 环境 变量 “JAVA_HOME”， 这 个 变量 用 来 指定 Java 程 序 的 工作 
目录 。 在 /etc/bashrc 目 录 下 添加 Java 安 装 目 录 ， 命 令 如 下 : 





export JAVA_HOME=/opt/java 





(2) 设置 SSH 通 过 秘 钥 方式 访问 。Hadoop 多 个 节点 之 间 通 信 会 采 
用 SSH 秘 钥 认 证 方式 ， 为 避免 每 次 通信 都 需要 用 户 输入 密码 ， 这 里 需要 
生成 一 对 SSH 秘 钥 ， 生 成 秘 钥 使 用 如 下 命令 : 





$ ssh-keygen - 


t rsa 
$ cat -/.ssh/id rsa.pub >> -/.ssh/authorized keys 
$ chmod 600 -/.ssh/authorized keys 





(3) 下 载 Hadoop 软 件 包 。 访 问 
http://hadoop.apache.org/releases.html#Download ， 这 里 提供 了 多 个 版 本 
的 Hadoop 软 件 包 下 载 ， 建 议 读 者 测试 和 开发 时 使 用 最 新 的 稳定 版 本 

(Stable) ， 这 里 以 2.6.4 版 本 为 例 ， 下 载 位 置 如 图 16-4 所 示 。 


Welcome 


Apache Hadoop Releases 


Mailing Lists 
Issue Tracking Down load 
Who We Are? Hadoop is released as source code tarballs with corresponding binary tarbells for convenience. The downloads are distributed vie mirror sitd 
Who Uses Hadoop? for tampering using GPG or SHA-256. 
Buy Stuff 
Sponsorship 
Thanks 2.6. 11 February, 2016 ource signature F755D961 18316335.. 
Privacy Policy [ binary | signature C58F08D2 E0813035.. 
25 January, 2016 SOUTCE signature 7D48E61B 5464A765.. 
binary signature 49AD740F 85D27FA3.. 
Documentation .6. 17 Dec, 2015 source signature FA0C71B5 CB33A7FD.. 
* Related Projects binary signature ADA83D8C 2FF72D46.. 
28 Oct, 2015 source signature 6996A4A8 OFCE9109.. 
binary signature 56F630D7 0D4C7850.. 
06 July, 2015 source signature 53F3001C 457AD8FD.. 
binary signature 991DC34E A42A80B2.. 
19 Nov, 2014 source signature 139EF872 09C5637E.. 
binary signature 05084850 A3825208.. 


To verify Hadoop releases using GPG: 
Download the release hadoop-X.Y.Z-src.tar.gz from a mirror site. 
Download the signature file hadoop-X.Y.Z-src.tar.gz.asc from Apache. 


Download the Hadoop KEYS file. 
gpg --import KEYS 
gpg --verify hadoop-X.Y.Z-src.tar.gz.asc 


图 16-4 下载 位 置 





下 载 完成 后 将 Hadoop 解 压缩 到 /opt 目 录 ， 并 设置 环境 变量 指向 
Hadoop 的 安装 目录 。 命 令 如 下 : 





$ tar zxf hadoop-2.6.4.tar.gz - 


/opt 

echo 'export HADOOP HOME-/opt/hadoop-2.6.4' »» /etc/bashrc 
source /etc/bashrc 

cd $HADOOP HOME TA 














€ 0 00 


Hadoop 安 装 目录 可 以 看 到 编译 好 的 文件 





2. 修 改 配置 文件 并 局 动 服务 


(1) 修改 Hadoop HDFS 配 置 文件 。 接 下 来 需要 设置 Hadoop 的 配置 
文件 ， 这 种 单机 运行 的 模式 也 称 作伪 分 布 模式 ， 和 集群 模式 略 有 区 别 。 
这 里 使 用 伪 分 布 模 式 进行 部 蜀 。 修 改 如 下 配置 文件 。 


(D$HADOOP HOME/etc/hadoop/core-site.xml 





«configuration» 
«property» 
<name>fs.defaultFS</name> 
<value>hdfs: 


//localhost: 


9000</value> 
</property> 
</configuration> 





(2$HADOOP HOME/etc/hadoop/hdfs-site.xml. 





«configuration» 

«property» 
<name>dfs.replication</name> 
<value>1</value> 

</property> 

</configuration> 





(2) 启动 Hadoop HDFS 服 务 。 


QD 首次 启动 格式 化 存储 空间 。 





$ cd $HADOOP HOME 
$ bin/hdfs namenode - 


format 





@O) 启 动 NameNode 和 DataNode 进 程 。 





$ cd $HADOOP HOME 
$ sbin/start-dfs.sh 





验证 端口 是 否 启 动 。 





$ netstat - 


ntpl | grep 9000 





(3) 修改 Hadoop YARN 配 置 文件 。 


(O$HADOOP_HOME/etc/hadoop/mapred-site.xml. 





<configuration> 

<property> 
<name>mapreduce. framework .name</name> 
<value>yarn</value> 

</property> 

</configuration> 





(2$HADOOP HOME/etc/hadoop/yarn-site.xml . 





«configuration» 

«property» 

<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 

</configuration> 





(4) 启动 Hadoop YARN 服 务 。 


(局 动 命令 如 下 : 





$ cd $HADOOP HOME 
$ sbin/start-yarn.sh 





COS VENIS H zE 8 Jj 8] o 





$ netstat - 


ntpl | grep 8088 








153 1871 NBC ER EEA, PIP AE, Be RORY 
伪 分 布 环境 进行 测试 。 


16.2.3 经典 的 WordCount 





提 到 大 数据 的 计算 能 力 测 试 ， 就 一 定 会 有 最 经 典 的 单词 统计 ， 因 为 
它 可 以 充分 发 挥 各 个 节点 的 计算 能 力 ， 由 于 Hadoop 采 用 Java 开 发 ， 这 里 
提供 官方 的 WordCount 源 代码 。 


1. 源 代码 


(1) WordCount.java 文 件 源 代码 如 下 : 





import java.io.IOException. 


import java.util.StringTokenizer; 


import org.apache.hadoop.conf.Configuration: 


import org.apache.hadoop.fs.Path; 


import org.apache.hadoop.io.IntWritable 


import org.apache.hadoop.io.Text: 


import org.apache.hadoop.mapreduce. Job. 


import org.apache.hadoop.mapreduce. Mapper: 


import org.apache.hadoop.mapreduce.Reducer; 


import org.apache.hadoop.mapreduce.lib.input.FileInputFormat. 


import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat. 


public class WordCount ( 
public static class TokenizerMapper 
extends Mapper<Object, 


Text. 


Text. 


Intwritable>{ 
private final static IntWritable one = new IntWritable ( 


1); 
private Text word = new Text O; 
public void map i 

Object key. 


Text value. 


Context context 


throws IOException. 


InterruptedException { 
StringTokenizer itr = new StringTokenizer ( 


value.toString ©); 


while < 


itr.hasMoreTokens o» 


word.set« 


itr.nextToken 0»; 


context.write ( 


word, 


one) ; 


} 
} 
} 


public static class IntSumReducer 
extends Reducer<Text, 


Intwritable 


Text, 


IntWritable> { 
private Intwritable result = new IntWritable o; 


public void reduce < 


Text key. 


Iterable«Intwritable» values. 


Context context 
) 


throws IOException. 


InterruptedException { 
int sum = 0, 


for « 


IntWwritable val 


values» 


sum += val.get o; 


j 


result.set: 


sum ; 


context.write ( 


public static void main ( 


String[] args) 


throws Exception { 
Configuration conf = new Configuration o; 


Job job = Job.getInstance < 


conf 


"word count") ; 


job.setJarByClass ( 


WordCount.class) ; 


job.setMapperClass < 


TokenizerMapper.class) ; 


job.setCombinerClass ( 


IntSumReducer.class) ; 


job.setReducerClass ( 


IntSumReducer.class) ; 


job.setOutputKeyClass < 


Text.class) ; 


job.setOutputValueClass ( 


Intwritable.class».: 


FileInputFormat .addInputPath ( 


job, 


new Path: 


args[0])): 


FileOutputFormat.setOutputPath « 


job. 


new Path ( 


args[1]»»: 


System.exit.: 


job.waitForCompletion 


true» 


15; 





(2) 确保 /etc/bashrc 包 含 以 下 环境 变量 。 





export JAVA_HOME=/opt/java 
export PATH-$JAVA HOME/bin: 


$PATH 
export HADOOP CLASSPATH-$JAVA HOME/lib/tools.jar 





(3) 编译 代码 。 





$ bin/hadoop com.sun.tools.javac.Main WordCount.java 
$ jar cf wc.jar WordCount*.class 





(4) 准备 要 统计 的 文件 。 





$ cd $HADOOP HOME 





QD 创建 测试 文件 。 





$ echo "Hello World Bye World" > fileO1 


$ echo "Hello Hadoop GoodBye Hadoop" » file02 





@) 将 测试 文本 放 入 HDFS 的 /input 目 录 。 





$ bin/hdfs dfs - 


mkdir /input 
$ bin/hdfs dfs - 


put fileO* /input 





(5) 开始 统计 。 





$ bin/hadoop jar wc.jar WordCount /input /output 





在 终端 上 能 看 到 Map 和 Reduce 的 进度 。 





$ bin/hdfs dfs - 


cat /output/part-r-00000 





和 输出 结果 如 下 : 





Bye 1 
Goodbye 1 
Hadoop 2 
Hello 2 
World 2 





在 计算 过 程 中 ， 所 看 到 的 Map ©) MReduce O 的 进度 就 是 将 统计 
的 所 有 内 容 映 射 到 指定 的 内 存 块 中 ， 如 果 Hadoop 使 用 集群 环境 ， 这 些 计 


算 会 分 布 到 不 同 的 主机 上 实现 并 行 处 理 。 
2. 原 理解 释 


MapReduce 的 过 程 非 常 复杂 ， 高 手 们 通常 喜欢 直接 翻 看 官方 的 文档 
和 源 代 码 。 


作为 入 门 手册 ， 这 里 只 对 MapReduce 的 过 程 中 发 生 的 逻辑 性 的 操作 
进行 解释 ， 读 者 明日 原理 了 就 知道 怎么 用 了 。 


一 次 完整 的 MapReduce 计 算 处 理 过 程 从 大 的 环节 上 分 为 两 个 部 分 ， 
即 Map 和 Reduce。 完 整 的 流程 是 一 个 从 前 到 后 的 处 理 流 ， 如 图 16-5 所 


>| 











图 16-5 ”处理 流程 
Map 的 处 理 过 程 如 下 。 
一 步 : 把 输入 文件 读 进来 。 


第 二 步 : 输出 构造 一 个 Key-Value 文 件 。 


一 步 很 重要 ， 因 为 大 部 分 逻辑 都 是 在 Reduce 中 完成 的 ， 所 以 在 
Map 的 部 分 实际 要 完成 对 Reduce 操 作 内 容 的 迎合 性 构造 ， 让 Reduce 能 


处 理 以 Key-Value 对 形成 的 文件 内 容 。 


以 刚刚 的 WordCount 为 例 : 





public void map: 


Object key. 


Text value. 


Context context 


throws IOException. 


InterruptedException 1 
StringTokenizer itr = new StringTokenizer ( 


value.toString ©); 


while ( 


itr.hasMoreTokens o» 


word.set ( 


itr.nextToken 0»; 


context.write: 


word, 


one»: 


一 段 程序 做 了 一 件 事 ， 就 是 把 输入 的 文件 用 空格 进行 了 切割 ， 然 
后 把 切割 完毕 后 得 到 的 每 个 词 都 输出 成 


词 one 


的 形式 。 


构造 的 输入 文件 是 fle01 和 file02: 





Hello World Bye World 
Hello Hadoop GoodBye Hadoop 








所 以 中 间 结 果 部 分 输出 的 文件 实际 上 变 成 了 





Hello one 
World one 
Bye one 
World one 
Hello one 
Hadoop one 
GoodBye one 
Hadoop one 





为 了 让 Reduce 可 以 分 段 处 理 ， 还 做 了 一 个 排序 。 这 里 需要 强调 的 
和 是， 排序 实际 上 不 是 这 么 做 的 ， 这 里 这 么 写 完 全 是 为 了 容易 理解 。 








Bye one 
GoodBye one 
Hadoop one 
Hadoop one 
Hello one 
Hello one 
World one 
World one 


es | 


Reduce 的 处 理 过 程 如 下 。 
第 一 步 : 把 文件 读 进来 。 
第 二 步 : 对 一 个 Key 的 文本 部 分 进行 处 理 。 


Reduce 最 核心 的 代码 如 下 : 





public void reduce: 


Text key, 


Iterable«Intwritable» values. 


Context context 
) 


throws IOException. 


InterruptedException { 
int sum = 0, 


for « 


IntWwritable val 


values» 


sum += val.get ©; 


} 


result.set < 


sum ; 


context.write: 


key. 


result); 








这 部 分 代码 在 做 一 个 循环 ， 只 是 不 是 遍历 整个 TEMP 文件 ， 而 是 只 
E 看 到 其 中 一 个 Key 所 窗 盖 的 部 分 ， 不 同 的 Key 会 被 分 给 不 同 的 Reduce 
程序 实例 。 


ap 


也 就 是 说 ， 在 刚刚 这 个 例子 中 ， 会 有 5 段 Reduce 程 序 实例 个 启动 ， 
它们 会 被 框架 分 配 到 不 同 的 节 反 (如果 有 ) 分 别处 理 。 


Part1: 





Bye one 





Part2: 


[ee | 
GoodBye one 


站 


Part3: 


| | 


Hadoop one 
Hadoop one 


ee | 


Part4: 


| 


Hello one 
Hello one 


[EE | 


Part5: 





World one 
World one 





这 样 5 段 输入 文件 分 别 产 生 的 输出 结果 如 下 。 


Part1: 





Bye 1 





Part2: 


E 
GoodBye 1 


4 


Part3: 


[ee | 
Hadoop 2 


[ee | 


Part4: 


| 
Hello 2 


有 


Part5: 





World 2 











最 后 一 步 就 是 进行 合并 ， 输 出 结果 文件 : 





Bye 1 
Goodbye 1 
Hadoop 2 
Hello 2 
World 2 





整个 过 程 就 像 在 图 书馆 里 数 图 书 数量 一 样 ， 多 个 人 一 起 做 ， 最 后 做 
一 个 合并 。Map 和 Reduce 在 一 次 运行 的 过 程 中 都 可 能 会 有 多 个 实例 出 
现 ， 每 个 实例 处 理 一 部 分 数据 ， 通 过 彼此 协同 完成 整个 海量 数据 的 计算 
操作 。 





WordCount 是 MapReduce 入 门 最 经 典 的 例子 。MapReduce 所 能 处 理 
的 事物 也 远 比 这 个 例子 复杂 ， 甚 至 可 以 出 现 MapReduce 之 后 紧 跟 一 个 
MapReduce， 类 似 用 管道 进行 处 理 的 方式 。 有 兴趣 的 读者 可 以 在 网 上 寻 
找 更 多 关于 MapReduce 示 例 。 





16.3 Spark 框架 


Spark 框 架 是 一 个 快速 旦 API 丰 富 的 内 存 计 算 框架 。Spatk 采 用 Scala 
语言 编写 ，Scala 是 基于 JVM 的 语言 ， 性 能 开销 小 。 


在 Spark， 一 切 计算 都 是 基于 RDD 人 句柄 来 进行 操作 的 。RDD 就 像 一 
个 数据 容器 ， 可 以 有 输入 口 ， 可 以 有 输出 口 。 在 内 存 中 ，Spark 使 用 
一 种 类 似 于 内 存 中 的 HDFS 的 内 存 分 布 式 存 储 框架 ， 这 样 使 
得 读 写 速度 有 了 极 大 的 提高 〈 官 方 说 是 100 倍 ) 。 





Tachyon 





Spark 提 供 了 大 量 的 应 用 程序 接口 ， 如 Python、Scala、Java 以 及 SQL 
接口 ， 还 可 以 使 用 HDFS、Hive、Cassandra 等 作为 数据 源 ， 它 的 外 部 接 
口 非常 丰富 ， 而 且 自 身 文 持 了 很 多 组 件 ， 主 要 组 件 如 图 16-6 所 示 。 


Spark Spark MLIib GraphX 
SQL Streaming (machine learning ) ( graph ) 


Apache Spark 


图 16-6 ”Spark 的 组 件 














1.Spark Core 


Spark Core 是 指 Spark 的 核心 功能 ， 包 括 任务 调度 、 内 存 分 配 回收 、 
RDD (弹性 分 布 式 数据 集 ，Resilient Distributed Dataset) 操作 、API 处 


理 等 ， 是 Spark 的 核心 组 件 。 
2.Spark SQL 


Spark SQLZ 3H] T Apache Hive 的 SQL 版 本 ， 当 时 被 称 作 Shark， 
它 可 以 让 用 户 通过 SQL 来 操作 RDD， 而 且 能 够 支持 交互 方式 的 数据 访 
问 。 但 是 因为 效率 不 高 ， 在 1.0 版 本 重新 编写 了 Spark SQL 来 取代 
HQL《〈Hive 版 本 的 SQL， 也 有 的 资料 上 会 写作 HiveQL ) ， 使 用 SQL 操作 
Spark RDD 大 大 降低 了 Spark 编 程 的 难度 。 





3.Spark Streaming 


Spark Streaming 是 流 式 计算 组 件 。 在 Spark Streaming 里 ， 流 处 理 实 
际 用 的 是 Micro-Batch 的 方式 ， 即 微 批 处 理 。 什 么 是 Micro-Batch? Batch 
是 批 处 理 的 意思 ， 就 是 一 次 性 处 理 需 要 的 事务 ， 中 间 不 需要 和 人 进行 交 
互 。 而 Micro-Batch 处 理 的 对 象 是 以 蝇 秒 为 蛙 位 的 微小 的 批 处 理 。 


可 以 在 内 存 里 把 输入 的 流 数据 “ 攒 ” 够 1 秒 、2 秒 或 者 其 他 时 间 长 度 ， 
然后 把 攒 起 来 的 数据 当做 一 个 RDD 块 。 一 个 RDD 块 上 能 够 进行 什么 计 
算 和 操作 ， 那 么 这 个 Micro-Batch 上 就 能 够 进行 同样 的 计算 和 操作 。 为 了 
避免 提交 作业 过 于 频繁 而 导致 开销 占 比 过 大 的 问题 ， 通 常 不 推荐 去 做 写 
秒 级 别 的 Micro-Batch， 请 大 家 注意 这 点 。 


4.MLlib 


MLlib 是 Spark 的 机 器 学 习 (ML) 组件， 提供 了 大 量 的 可 集群 化 的 
TIA, UHRA, DA, BEE WELE. 


5.GraphX 


GraphX 是 可 以 进行 集群 化 的 图 形 计算 和 图 形 挖 掘 组 件 。 这 种 组 件 
非常 适合 用 于 微 信 、 微 博 等 各 种 社交 网 络 产 品 的 用 户 关 系 或 者 产品 关系 
计算 ， 这 比 用 笛 卡 儿 积 的 方式 去 做 还 是 轻 量 很 多 。 





这 些 封装 好 的 组 件 都 为 使 用 Spark 提 供 了 很 大 的 便利 ， 再 加 上 友好 
的 API、 比 Hadoop 更 快 的 处 理 速 度 ， 使 Spark 逐 渐 抢 占 Hadoop 的 市 场 份 
额 ， 在 开源 大 数据 计算 中 出 现 的 频率 越 来 越 高 。 接 下 来 安装 Spark 并 用 
Spark 来 演示 如 何 进 行 单词 统计 CWordCounD 。 














16.3.1  Z Spark 


1. 下 载 





Spark 文 持 很 多 版 本 ， 目 前 主流 的 是 1.6.0 版 本 ， 为 了 便于 学 习 先 下 
载 预 编译 版 本 ， 访 问 http://spark.apache.org 选择 Download 命 令 ， 之 后 进 
入 下 载 界 面 。 


在 Choose a Spark release 下 拉 列 表 框 中 选择 1.6.0 版 本 ， 这 是 最 新 的 
稳定 版 本 。 在 Choose a package type 下 拉 列 表 框 中 选择 Pre-built for 
Hadoop 2.6 and later 选 项 。 这 里 选择 源 代码 版 本 或 预 编译 版 本 ， 由 于 之 
前 安装 的 Hadoop 为 2.6 版 本 ， 这 里 选择 此 项 ， 读 者 可 以 根据 实际 环境 进 
行 选择 。 在 Choose a download type 下 拉 列 表 框 中 选择 Direct Download 选 
项 直接 进行 下 载 ， 之 后 单 击 出 现 的 链接 地 址 就 可 以 下 载 了 。 下 载 界面 如 
图 16-7 所 示 。 








«i» mn 2 | 四 
Soar Í K Lightning-fast cluster computing 


Download Libraries - Documentation - Examples Community ~ FAQ 


Download Apache Spark™ 


Our latest version is Spark 1.6.0, released on January 4, 2016 (release notes) (git tag) 
1. Choose a Spark release: 1.60 (Jan 042016) © 
2. Choose a package type: Pre-built for Hadoop 2.6 and later 
3. Choose a download type: Direct Download c 
4. Download Spark: spark-1.6.0-bin-hadoop2.6.tgz 
. Verify this release using the 1,6.0 signatures and checksums, 
Note: Scala 2.11 users should download the Spark source package and build with Scaía 2.11 support. 





图 16-7 FAH 


此 外 还 需要 下 载 Scala: 访问 http://www.scala-lang.org/download/ 下 
载 最 新 的 稳定 版 本 ， 下 载 位 置 如 图 16-8 所 示 。 


æ Scala DOCUMENTATION DOWNLOAD CC 


DOWNLOAD 


Choose one of three ways to get started with Scala! 


Download Scala 2.11.7 binaries for your system (All downloads), 


é) Scala 2.11.7 


Need halo installing? 





图 16-8 Scala FAIA 


2. 环 境 准 备 


由 于 Spark 是 采用 Scala 语 言 编 写 的 ， 因 此 需要 在 Java 虚 拟 机 
(JVM) 上 面 运行 ， 为 了 更 好 地 兼容 其 他 的 大 数据 软件 ， 这 里 建议 至 少 
在 Java 7 版 本 以 上 ， 如 果 需 要 进行 Scala 和 Python 的 开发 ， 需 要 安装 Scala 
和 Python 的 解释 器 (Python 解释 器 安装 方法 请 参考 附录 ) 。 


首先 要 确保 Java 环 境 变量 存在 ， 同 上 一 节 Hadoop 配 置 ， 确 
保 /etc/bashrc 存 在 以 下 代码 行 : 





export JAVA_HOME=/opt/java 





IRE 


将 Scala 安 装 到 /opt 目 录 ， 使 用 命令 如 下 : 





$ tar zxf scala-2.11.7.tgz 
$ mv scala-2.11.* /opt/scala 





安装 完成 后 ， 需 要 设置 环境 变量 。 确 保 以 下 配置 在 /etwbashrc 文 件 
中 存在 : 





export SCALA HOME=/opt/scala 





安装 Spark 命 令 如 下 : 





$ tar zxf spark-1.6.0-hadoop2.6.tgz - 


C /opt 
$ mv /opt/spark-1.6* /opt/spark 





将 Spark 安 装 目 录 设 置 为 环境 变量 加 入 /etowbashrc 文 件 ， 命 令 如 下 : 





export SPARK HOME-/opt/spark 





16.3.2 ”使 用 Scala 计 算 WordCount 


Spark 文 持 交 互 式 和 非 交 互 式 两 种 操作 形式 ， 使 用 交互 式 进行 计算 
可 以 执行 以 下 命令 : 





$ cd $SPARK_HOME 
$ bin/spark-shell 





执行 完成 后 会 进入 Scala 交 互 界面 。 


也 可 以 编写 Scala 脚 本 执行 非 交 互 方式 命令 ， 但 是 需要 先导 入 Spark 
相关 的 库 进 行 初始 化 ， 代 码 如 下 : 





import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 
val conf = new SparkConf © 


.setMaster ( 


"localhost"» 


.setAppName « 


"App Name") 


val sc - new SparkContext « 


conf» 


为 了 便于 初学 的 读者 学 习 ， 这 里 使 用 交互 式 演示 利用 Spark 计 算 
WordCount. 


首先 查看 构建 好 的 文件 ， 命 令 如 下 : 





$ cat /tmp/fileO1 

Hello World Bye World 

$ cat /tmp/file02 

Hello Hadoop Bye Hadoop 





进入 Spark 交 互 环境 ， 执 行 如 下 命令 : 





$ cd $SPARK_HOME 
$ bin/spark-shell 
// 读 取 要 统计 的 文件 ， 如 果 作为 独立 脚本 运行 ， 需 要 先进 行 初始 化 


scala» val input = sc.textFile: 


"/tmp/fileo*") 


/ / 将 每 行 以 空格 做 分 隔 ， 分 割 成 多 个 单词 








scala» val words = input.flatMap: 


line => line.split: 


// 统计 单词 的 数量 





scala» val count = words.map:« 


133 


.reduceByKey « 


// 将 统计 结果 打印 到 屏幕 


scala» count.collect © 


.fForeach« 


println) 


Bye, 


Hello. 


2) 


World. 


2) 


Hadoop, 


16.4 ”分 布 式 列 存 储 框架 





在 生产 生活 中 会 接触 到 很 多 信息 数据 ， 而 大 部 分 信息 是 由 非 结 构 化 
数据 组 成 的 ， 特 别 是 在 大 数据 处 理 过 程 中 尤为 明显 。 这 些 数据 都 无 法 用 
关系 型 数据 库 的 思维 方式 建 模 ， 因 此 在 大 数据 的 处 理 过 程 中 ， 就 出 现 了 
很 多 非 结构 化 数据 处 理 需求 。 


为 了 存储 便利 ， 易 于 理解 ， 在 完整 的 大 数据 体系 中 采用 了 很 多 
NoSQL (Not Only SQL 的 缩写 ) 数据 库 。 基 于 NoSQL 理 念 设计 的 最 著名 
的 系统 是 Google 的 BigTable 和 滑铁卢 大 学 开发 的 HBase。Facebook 将 
Google BigTable 和 Amazon Dynamo 的 完全 分 布 式 架 构 集 于 一 身 ， 开 发 了 
Cassandra， 后 于 2010 年 正式 成 为 了 Apache 基 金 会 项 目 。Cassandra 和 
HBase 的 出 现 不 但 使 NoSQL 的 处 理 速度 得 到 了 前 所 未 有 的 提升 ， 而 且 它 
们 能 够 组 成 集群 化 也 为 Hadoop、Spark 等 需要 大 容量 数据 快速 写 入 的 业 
务 场 景 提供 了 非常 有 用 的 工具 。 著 名 的 甲骨 文公 司 Oracle 也 有 自己 的 


NoSQL 产 品 ， 叫 做 NoSQL Database. 





1.Cassandra 简 介 
Cassandra 的 名 字 来 源 于 希腊 神话 的 一 位 女 先知 ， 因 此 该 项 目的 


Logo 是 一 只 明亮 的 眼睛 。 最 突出 的 特点 是 它 的 可 扩展 性 ， 给 集群 添加 新 
节点 时 ， 可 以 直接 指 同 新 的 主机 ， 不 必 重 局 任何 进程 和 改变 任何 碍 询 ， 











是 非常 便利 的 目 动 热 扩 展 机 制 。 这 是 一 个 非常 好 的 特性 。 


此 外 ，Cassandra 还 有 一 个 优良 的 特性 ， 即 支持 SQL 语 言 。 这 也 让 广 
大 的 SQL 爱 好 者 觉得 非常 杀 切 ， 大 大 降低 了 学 习 的 门槛 。 





2.HBase 简 介 


HBase 采 用 Java 语 言 开 发 ， 和 Cassandra 一 样 ， 同 样 借鉴 了 Google 的 
BigTable 模 型 ， 主 要 为 Hadoop 生 态 圈 提 供 了 列 存储 服务 。 


HBase 使 用 HFile 对 文件 进行 列 式 存储 ，HFile 存 储 以 列 族 为 单位 。 
在 读 取 时 如 果 只 需 用 行 键 作 为 索引 要 扫描 一 个 列 族 的 内 容 ， 那 么 其 他 不 
相干 的 列 族 即 便 存在 和 索引 条 件 对 应 的 逻辑 关系 也 不 会 被 扫描 到 ， 这 种 
方式 在 一 定 程度 上 避免 了 IO 拥 塞 ， 也 更 加 适合 这 种 小 尺寸 的 OLTP 操 
(s 








但 是 和 Cassandra 一 样 ，HBase 也 不 支持 事务 操作 。 
3.Cassandra 和 HBase 对 比 


(1) Cassandra 部 署 更 简单 。Cassandra 只 有 一 种 角色 ， 而 HBase 除 
了 Region Server 外 还 需要 ZooKeeper 来 同步 集群 状态 。 


(2) 数据 一 致 性 是 否 可 配置 。Cassandra 的 数据 一 致 性 是 可 以 配置 
的 ， 可 以 更 改 为 最 终 一 致 性 ， 而 HBase 是 强 一 致 性 的 。 





(3) 负载 均衡 算法 不 同 。Cassandra 通 过 一 致 性 哈 希 来 决定 数据 存 
储 的 位 置 ， 而 HBase 靠 Master 节 点 管理 数据 的 分 配 ， 将 过 热 的 节点 上 的 
Region 动 态 分 配给 负载 较 低 的 节点 。 因 此 Cassandra 的 平均 性 能 会 优 于 
HBase， 但 是 Hbase 有 Master 节 点 ， 热 数据 的 负载 更 均衡 。 


(4) 单 点 问题 。 正 是 由 于 Hbase 存 在 Master 节 点 ， 因 此 会 存在 单 点 


问题 。 


16.5 ”PrestoDB 一 一 神奇 的 CLI 


16.5.1 ” Presto 为 什么 那么 快 


有 这 人 么 一 句 话 “天 下 武功 ， 唯 快 不 破 ”， 而 Presto 束 会 给 人 们 这 样 一 
种 体验 。 

Presto 诞 生 于 Facebook， 由 Facebook 内 部 工程 师 和 开源 社区 工程 师 
共同 进行 维护 ， 它 就 是 一 种 超 快 的 SQL 和 查询 工具 ， 它 诞生 的 主要 用 途 就 
是 作为 Hive 和 Pig 的 蔡 代 产品 ， 快 速 地 完成 海量 的 数据 查询 工作 。 











Presto 不 但 能 够 解析 SQL 还 能 文 持 多 种 数据 源 ， 如 HDFS、 
Cassandra、MySQL 等 。 但 是 Presto 并 不 是 传统 的 数据 库 ， 还 不 能 文 持 在 
线 事 务 处 理 。 它 更 像 是 一 个 分 布 式 查询 中 间 件 ， 采 用 了 分 布 式 查 询 引 
擎 ， 同 时 读 取 多 个 数据 源 中 的 大 数据 集 。 它 的 集群 结构 如 图 16-9 所 示 。 












Hive 
Presto 
Metastore 










Worker 
Presto 
Coordinator Worker 


Presto 
Worker 
图 16-9 ”Presto 的 集群 结构 


Presto 分 为 CLI、Coordinator、Worker3 个 部 分 ， 其 中 服务 器 部 分 的 
Coordinator 可 以 看 作 是 调度 各 个 Worker 的 调度 器 ， 而 且 它 还 承担 着 让 客 
户 端 CLI 角 色 连 接 的 功能 。 它 将 大 量 的 计算 分 配 到 Worker 来 执行 ， 保 证 
Presto 能 够 快速 地 进行 SQL 查 询 。 


16.5.2 ”安装 Presto 


1. 下 载 








访问 以 下 链接 来 下 载 最 新 版 本 的 Presto 安 装 包 ， 也 可 以 定期 访问 官 
方 文档 ， 来 获取 最 新 版 


7k: https://prestodb.io/docs/current/installation/deployment.html . 


将 下 载 的 安装 包 解 压缩 ， 创 建 一 个 etc 目 录 ， 命 令 如 下 : 





$ tar zxf presto-server-0.138.tar.gz - 


C /opt 

$ mv /opt/presto-server-0.* /opt/presto 
$ cd /opt/presto 

$ mkdir etc 





2. fic E Presto x fr Hive 











Presto 需 要 配置 以 下 4 类 信息 来 完成 基本 设置 ， 需 要 将 配置 文件 放 入 
etc H 3x. 


(1) 节点 属性 : 每 个 节点 的 名 称 和 数据 存储 位 置 。 
(2) JVM 参 数 : 运行 时 的 内 存 参数 。 


(3) 服务 器 属性 : Presto 阶 段 运行 时 的 角色 信息 。 


(4) Catalog 属 性 : 连接 指定 数据 源 的 信息 。 


节点 属性 配置 文件 etc/node.properties 内 容 如 下 : 





H 集群 名 称 





node.environment-production 
# 集群 的 唯一 标示 ， 避 免 同 网 络 环境 多 套 








Presto 集 群 互相 干 


= 





node.id-ffffffff-ffff-ffff-ffff-Tfffffffffff 
# 数据 存储 的 目录 


node.data-dir-/var/presto/data 





JVM 人 参数 文件 etwjvm.config 内 容 如 下 : 





-server 
-Xmx16G 
- XX: 


+UseG1GC 
- XX: 


G1HeapRegionSize-32M 
-XX: 


+UseGCOverheadLimit 
- XX: 


+ExplicitGCInvokesConcurrent 
-XX: 


+HeapDumpOnOutOfMemoryError 
-XX: 


OnOutOfMemoryError=kill -9 %p 





Presto 会 将 运行 的 VM 虚拟 机 参数 设置 为 此 内 容 。 


服务 器 属性 配置 文件 etc/config.properties 包 含 服 务 器 角色 信息 ， 如 
果 只 作为 Coordinator， 应 该 至 少 包含 以 下 信息 : 





coordinator=true 
node-scheduler.include-coordinator-false 
http-server.http.port-8080 
query.max-memory-50GB 
query.max-memory-per-node-1GB 
discovery-server.enabled-true 
discovery.uri-http: 


//example.net. 


8080 





如 果 只 作为 Worker， 应 该 至 少 包 含 如 下 信息 : 





coordinator=false 
http-server.http.port=8080 
query.max-memory-50GB 
query.max-memory-per-node-1GB 
discovery.uri-http: 


//example.net. 


8080 





如 果 只 是 测试 Presto 的 功能 ， 可 以 将 一 人 台 机 器 既 作 为 Coordinator， 
也 作为 Worker， 应 该 包含 以 下 信息 : 





coordinator=true 
node-scheduler.include-coordinator-true 
http-server.http.port-8080 


query.max-memory-5GB 
query.max-memory-per -node=1GB 
discovery-server.enabled-true 
discovery.uri-http: 


//example.net: 


8080 





coordinator 选 项 用 来 指定 Presto 实 例 是 否 作为 一 个 Coordinator 来 接收 
客户 端的 信息 。 


node-scheduler.include-coordinator 只 有 在 Presto 实 例 作 为 Coordinator 
角色 时 才 有 用 处 ， 用 来 进行 任务 调度 。 


http-server.http.port 用 来 指定 服务 的 端口 ，Presto 使 用 HTTP 协 议 进行 
通信 。 

discovery-server.enabled 表 示 Presto 通 过 自动 发 现 机 制 来 找到 集群 中 
所 有 的 节点 。 


discovery.uUri 通 常 指 向 Presto 实 例 的 Coordinator 角 色 ，Coordinator 角 
色 通 过 内 崩 的 自动 发 现 服务 接收 Worker 角 色 的 注册 。 





Catalog 属 性 通过 在 etc/catalog 下 创建 属性 文件 来 完成 属性 的 注册 。 
Catalog 通 过 connectors 访 问 数据 源 。 例 如 ， 创 建 一 个 
etc/catalog/hive.properties 文 件 来 访问 Hive 数 据 源 ， 配 置信 息 如 下 : 





connector.name-hive-hadoop2 
hive.metastore.uri-thrift. 


//example.net. 


9083 





针对 不 同 的 Hadoop 版 本 ，Presto 有 对 应 的 Hive connector, ix E x FF 
以 下 4 种 。 


(1) hive-hadoop1: Apache Hadoop 1.x. 

(2) hive-hadoop2: Apache Hadoop 2.x. 

(3) hive-cdh4: Cloudera CDH 4. 

(4) hive-cdh5: Cloudera CDH 5. 
完成 以 上 的 基本 配置 ，Presto 就 可 以 正式 启动 了 。 
3. 启 动 Presto 


可 以 使 用 bin/launcher 来 启动 Presto 实 例 ， 为 了 便于 调试 ，Presto 提 供 
了 两 种 启动 方式 ， 前 台 启 动 命令 如 下 : 








$ bin/launcher run 





可 以 将 日 志和 碍 询 结果 输出 到 当前 终端 。 也 可 以 在 后 台 司 动 ， 避 免 
因 关 闭 终 并 导致 程序 退出 ， 后 台 局 动 命令 如 下 : 





$ bin/launcher start 





更 多 的 命令 选项 可 以 通过 help 参 数 来 获取 ， 命 令 如 下 : 





$ bin/launcher - 


help 





4. 命 令 行 接口 


为 了 连接 到 指定 的 Presto 实 例 ， 需 要 使 用 Presto CLI 功 能 进行 连接 ， 
可 以 访问 以 下 地 址 下 载 Presto 
CLI: https://repol.maven.org/maven2/com/facebook/presto/presto- 


cli/0.138/presto-cli-0.138-executable.jar 。 


是 一 个 可 执行 的 jar 文 件 ， 下 载 后 重 命名 为 presto， 赋 予 可 执行 权 
限 后 即 可 运行 ， 相 关 命 令 如 下 : 








$ mv presto-cli-0.138-executable.jar presto 
$ chmod +x presto 
$ ./presto --server localhost. 


80 --catalog hive --schema default 





(1) server 参 数 指定 Presto 的 Coordinator 的 IP 地 址 和 端口 ， 这 里 使 用 
了 本 机 的 IP 地 址 和 端口 。 


(2) catalog 参 数 为 Presto 集 群 定 义 catalog 名 称 。 


(3) schema 参数 指定 默认 访问 的 数据 库 名 称 。 
连接 成 功 后 ， 可 以 执行 查询 SQL 语句 来 享受 Presto 带 来 的 飞 一 样 的 
速度 。 


如 果 读 者 有 兴趣 还 可 以 参考 这 篇 博 
文 : http://7737197.blog.51cto.com/7727197/1727186 ， 是 关于 部 署 Presto 
on Cassandra 的 ， 就 是 把 Cassandra 作 为 Presto 的 数据 源 。 


16.6 小结 


Hadoop、Spark、PrestoDB 等 大 数据 框架 有 着 非常 好 的 稳定 性 、 扩 
展 性 、 高 可 用 性 等 优势 ， 在 企业 应 用 中 有 着 非常 好 的 前 景 。 








本 章 介 绍 的 大 数据 框架 基本 都 是 分 布 式 数 据 处 理 的 框架 ， 优 势 是 处 
理 单 机 不 方便 处 理 的 数据 存储 、 数 据 统计 、 数 据 排序 的 操作 。 但 是 对 于 
迭代 性 较 强 的 机 器 学 习 来 说 ， 刚 刚 介 绍 的 这 些 大 数据 框架 会 有 不 适用 的 
地 方 ， 有 不 少 算 法 也 不 适合 迁移 到 其 上 来 进行 操作 。 


建议 使 用 以 下 两 种 办 法 。 


办 法 一 : 使 用 抽样 方法 提取 少量 数据 ， 把 学 习 或 分 析 挖 据 的 内 容 
放 在 一 台 计 算 机 上 进行 计算 和 处 理 。 


办 法 二 : 使 用 分 布 式 的 深度 学 习 框 架 来 处 理 极 大 规模 的 机 器 学 习 
数据 ， 如 Caffe，Caffe 的 最 新 版 已 经 支持 分 布 式 GPU 在 CNN 网 络 训练 
d 


第 17 重 ”系统 架构 和 调 优 


在 多 年 做 以 构 师 的 过 程 中 ， 有 不 少 朋 友和 我 探讨 过 系统 调 优 的 思 
路 ， 也 有 一 些 年 轻 的 同事 会 来 请 教 ， 有 的 人 提出 的 调 优 问题 非常 具体 ， 
而 有 时 候 有 的 人 会 非常 泛泛 地 提出 一 个 问题 “系统 怎么 调 优 ”。 





通常 具体 的 问题 因为 场景 确定 ， 所 以 相对 比较 好 回答 ， 而 泛泛 的 问 
常 不 容易 回答 。 笔 者 对 调 优 的 思路 进行 了 总 结 跟 大 家 进行 分 享 与 讨 
论 。 不 管 你 用 的 是 Linux、Windows 还 是 一 些小 型 机 用 的 UNIX 系 统 亦 或 
其 他 系统 ， 优 化 这 个 话题 几乎 是 永远 避 不 开 的 。 








永远 没有 了 最 快 只 有 更 快 ， 人 类 对 效率 的 苛求 是 贫 柳 的 ， 当 然 这 也 是 
人 类 技术 进步 的 重要 原动力 之 一 。 





优化 完 竟 应 该 怎么 做 昵 ? 优化 有 没有 一 些 原则 或 者 判断 标准 ? 答案 


IM 


是 肯定 的 。 

首先 必须 明确 一 个 问题 ， 即 优化 是 在 优化 什么 ? 

优化 是 有 着 对 象 和 日 标的 ， 如 果 抛 开 对 象 和 目标 来 谈 ， 优 化 几乎 是 
一 个 没 头 没 尾 的 伪 命 题 。 回 想 一 下 ， 在 什么 情况 下 我 们 会 将 “优化 ”一 词 
脱口 而 出 ? 很 多 读者 估计 也 有 类 似 的 体会 ， 那 就 是 ， 在 对 系统 目前 的 状 
况 不 满意 或 者 不 满足 的 时 候 。 而 这 些 情况 通常 包括 两 个 大 的 方面 : 一 个 


是 时 间 ， 一 个 是 空间 。 我 们 无 非 是 对 这 两 种 情况 中 的 一 种 或 者 两 种 的 当 
前 状况 不 满 ， 几 乎 找 不 到 第 三 种 东西 来 衡量 。 而 用 来 文 持 这 两 个 方面 的 
因素 ， 恕 CPU、 内存、 磁盘、 网络， 这些 因素 称 为 资源 。 





17.1 速度 一 一 资源 的 配置 





对 速度 的 不 满 在 调 优 的 场景 里 占 大 多 数 ， 速 度 的 不 满 一 般 来 说 也 是 
分 两 种 : 


一 种 是 对 一 个 “体型 ? 较 大 的 任务 执行 的 时 间 过 长 不 满 ; 


一 种 是 对 一 个 “体型 ? 较 小 的 任务 的 啊 应 速度 过 长 不 满 。 





这 两 种 不 满 看 上 去 都 是 一 样 的 速度 问题 ， 但 是 思路 不 完全 一 样 。 一 
般 来 说 ， 在 做 这 类 优化 之 前 先 要 做 一 件 事 ， 就 是 判断 一 下 完 竟 是 资源 不 
足 ， 还 是 资源 分 配 不 合理 。 








常见 的 场景 可 能 有 以 下 这 些 ; 例如 ， 一 个 进程 在 服务 器 上 运行 ， 但 
是 速度 确实 比 期 望 的 慢 ， 而 CPU 和 磁盘 的 市 宽 却 大 量 闲 置 ， 这 种 情况 下 
很 显然 是 资源 配置 不 合理 。 因 为 资源 不 是 不 够 ， 而 是 由 于 线程 调度 ， 或 
者 算法 ， 或 者 其 他 一 些 原因 没有 被 利用 上 。 这 种 情况 下 估计 你 去 申请 购 
买 新 机 器 ， 如 果 老 板 花 的 确实 是 目 己 的 钱 的 话 十 有 八 九 是 不 会 给 你 批 
的 ， 相 信 我 。 








17.1.1 思路 一 : 逻辑 层面 的 优化 


在 服务 器 上 跑 的 程序 ， 尤 其 是 Batch 通 常 是 彼此 之 间 独 立 的 。 这 种 
情况 下 ， 其 实 是 可 以 考虑 让 它们 同时 来 执行 ， 充 分 利用 CPU 和 内 存 的 资 
源 。 但 是 也 要 注意 ， 要 确认 这 种 变化 给 人 磁盘 市 来 的 IO 增 加 不 会 让 它 成 为 
系统 的 瓶颈 。 这 就 是 进程 级 别 的 并 发 。 





还 有 的 时 候 一 个 进程 可 以 分 解 为 多 个 独立 作业 和 一 个 合并 操作 ， 那 
么 这 种 情况 下 通常 可 以 党 试 着 多 局 动 几 个 进程 或 者 线程 ， 让 每 个 进程 或 
者 线程 处 理 整 个 作业 的 一 部 分 ， 最 后 结束 的 时 候 做 一 个 作业 结果 的 “ 合 
并 ”操作 ， 提 高 并 行 化 ， 提 高 资源 利用 率 。 这 种 应 用 比较 典型 的 就 是 
Hadoop 环 境 中 的 MapReduce 程 序 ， 实 际 是 在 很 多 节点 各 局 动 符 干 个 Map 
进程 和 Reduce 进 程 ， 让 它们 在 不 同 节 点 上 操作 ， 分 摊 IO 和 CPU 的 资源 压 
力 。 在 单 台 服务 器 上 也 有 类 似 的 操作 ， 如 一 个 MySQL 服 务 器 进程 在 接 
受 一 个 SQL 请 求 时 ， 这 个 SQL 不 论 请 求 多 少 个 表 ， 不 论 它 有 多 少 个 不 相 
干 的 子 查 询 ， 不 论 写 得 有 多 “优美 ?”， 它 都 只 能 在 一 个 CPU 内 核 上 一 步 一 
步 地 走 下 去 。 所 以 ， 如 果 采 用 MySQL 环 境 做 关联 分 析 ， 就 只 能 把 一 个 
SQL 中 的 两 个 独立 子 碍 询 放 到 两 个 或 者 更 多 的 线程 《进程 ) 里 去 做 请 
求 ， 再 用 一 个 监控 线程 (进程 观察 结果 ， 最 后 做 连接 查询 。 有 必要 的 
话 可 以 使 用 Memory 内 存 视图 的 Hash 索 引进 行 速度 优化 。 

















17.1.2 ”思路 二 : 容器 层面 的 优化 


当 一 人 台 或 多 台 服 务 器 上 有 很 多 进程 ， 但 是 资源 占用 普 衣 比较 低 时 ， 
还 可 以 考虑 使 用 容器 层面 的 优化 。 





可 以 使 用 KVM 或 者 Docker 这 样 的 容器 把 服务 器 资源 划分 成 多 个 虚 
拟 的 服务 器 资源 。 这 种 情况 下 ， 原 本 在 多 个 服务 顺 的 少量 负载 经 过 迁移 
会 合 起 来 加 载 在 一 个 服务 器 上 ， 而 节省 出 来 的 服务 器 资源 可 以 用 来 做 其 
他 的 服务 ， 在 硬件 的 成 本 上 会 有 一 大 笔 市 省 。 








现在 的 阿里 云 、 腾 讯 云 、 金 山 云 、 亚 马 还 云 等 云 产品 服务 商 就 是 大 
规模 使 用 了 虚拟 化 技术 ， 从 而 使 得 运 维 成 本 大 为 降低 。 


虽然 容 需 层面 的 优化 对 于 直接 减少 程序 运行 的 时 间作 用 较为 间接 ， 
但 在 庞大 的 系统 内 提高 硬件 整体 的 使 用 效率 还 是 非常 有 好 处 的 。 








17.1.3 ”思路 三 : 存储 结构 层面 的 优化 


目前 在 服务 器 普遍 配置 了 RAID10 磁 盘 阵 列 以 后 ， 磁 盘 IO 在 硬件 层 
面 进一步 并 行 化 的 余地 越 来 越 小 了 。 那 么 还 有 没有 其 他 的 办 法 可 以 对 IO 
层面 进行 优化 呢 ? 有 的 。 


BON, AS BAe ERT BUR ISS, ME ESE HR IES , 
每 次 儿 个 GB( 量 比较 小 ， 至 少 内 存 能 够 承载 》， 但 是 一 次 处 理 可 能 要 
读 写 数 百 次 ， 这 样 会 大 量 占用 磁盘 IO。 这 种 情况 下 ， 不 妨 尝 试 在 内 存 中 
虚拟 或 者 划分 出 一 个 独立 的 空间 ， 以 供 做 IO 使 用 。 这 样 把 CPU 和 磁盘 之 
间 的 IO 转化 成 为 CPU 和 内 存 之 间 的 IO， 这 种 效率 的 提升 可 能 是 数 干 倍 
的 。 








另外 ， 磁 盘 在 做 IO 的 过 程 中 ， 是 不 是 扫描 了 一 些 本 可 以 不 扫描 的 磁 
R? 解决 这 种 问题 有 很 多 成 熟 的 办 法 。 





在 数据 仓库 里 使 用 列 式 存储 ， 从 本 质 来 讲 也 是 用 这 种 方法 来 规避 没 
必要 扫描 的 数据 块 被 扫描 。 表 分 区 (Table Partitioning) 、 索 引 
(Inde ， 这 两 种 技术 同样 是 为 了 解决 数据 碍 找 中 没 必 要 扫描 的 数据 
块 被 访问 而 带 来 的 IO 效率 下 降 问 题 。 





资源 分 配 不 合理 的 情况 比较 好 解决 ， 就 是 找 出 在 系统 里 CPU、 内 


存 、 磁 盘 、 网 络 中 ， 哪 些 资源 被 大 量 朵 置 ， 如 果 利 用 起 来 能 人 否 提 高 并 行 
性 ， 基 本 就 是 这 样 一 种 思路 。 


17.1.4 思路 四 : 环节 层面 的 优化 


环节 层面 的 优化 是 一 个 边缘 化 的 问题 ， 因 为 这 个 层面 上 的 优化 通常 
会 涉及 硬件 资源 以 外 的 一 些 问题 一 一 换 名 话说， 这 一 类 问题 在 计算 机 的 
CPU、 内 存 、 磁 盘 、 网 络 层面 考虑 可 能 还 是 不 能 解雇 的 。 





1. 虚 拟 机 邦 的 祸 


笔者 几 年 前 在 东 500 强 企业 的 IT 解决 方案 中 心 做 顾问 的 时 候 ， 曾 经 
遇 到 过 一 个 案例 。 





这 个 案例 从 技术 层面 来 说 就 是 一 个 ERP 系 统 页 面 请 求 速度 太 慢 的 问 
题 ， 大 概 需 要 2 到 3 秒 时 间 才 能 把 一 个 页 面 的 数据 完全 加 载 完毕 。 不 管 2 
到 3 秒 这 个 速度 是 不 是 够 快 ， 是 不 是 比 平时 访问 电 商 网 页 或 者 在 线 论 坛 
的 速度 快 ， 对 于 一 个 对 效率 要 求 很 苛刻 的 500 强 企业 来 说 ， 这 是 一 件 不 
能 容忍 的 事情 。 况 且 ， 页 面 所 访问 的 服务 器 也 是 DELL 提 供 的 很 新 的 技 
术 方 案 ，48 个 CPU 内 核 ，192GB 内 存 。 服 务 器 在 公司 内 网 ， 内 网 带宽 又 
基本 都 是 1Gbps 的 光纤 到 楼 层 ， 楼 层 内 部 又 都 是 100Mbps 的 以 太 网 。 所 
以 从 这 个 层面 上 看 这 种 页 面 的 延迟 没有 道理 ， 而 其 他 项 目 组 在 配置 基本 
相当 的 服务 器 环境 和 终端 环境 ， 打 开 页 面 时 间 都 是 1 秒 以 内 。 





但 是 很 快 就 发 现 了 问题 所在 ， 这 个 ERP 系 统 的 页 面 是 使 用 Silverlight 


制作 的 。Silverlight 是 微软 出 品 的 一 种 跨 服务 器 跨 平台 的 插件 ， 主 要 日 
的 是 解决 浏览 器 上 的 流 媒体 和 交互 丰富 性 的 问题 ， 基 本 可 以 认为 是 
Adobe Flash 的 茶 代 者 。 然 而 这 种 技术 框 染 有 一 个 天 生 的 问题 就 是 慢 ， 因 
为 它 调用 的 是 微软 .NET 虚 拟 机 的 资源 ， 而 虚拟 机 本 号 的 运行 机 制 就 是 一 
种 多 层 间 接 调用 的 架构 ， 指 令 不 是 直接 下 达到 CPU 上 ， 而 是 经 过 虚拟 
机 ， 由 虚拟 机 调度 线程 再 发 送 到 CPU。 在 一 次 HTTP 请 求 的 过 程 中 ， 有 
几 百 个 指令 会 以 这 种 方式 传递 给 CPU， 延 迟 是 显而易见 的 。 














最 后 为 了 赢得 这 1 秒 多 的 时 间 ， 不 得 不 推翻 了 整个 项 目的 架构 部 
， 采 用 HIML4+CSS2 的 方式 。 立 竿 见 影 ， 延 迟 瞬 间 就 压缩 到 1 秒 以 内 
。 但 是 代价 是 牺牲 了 一 些 交互 上 的 丰富 性 和 美观 性 ， 那 个 时 候 
HTML5 和 CSS3 还 不 成 熟 ， 还 不 能 作为 成 熟 的 技术 方案 ， 所 以 说 现在 用 
HTML5 和 CSS3 的 程序 员 们 真是 赶 上 好 时 候 了 。 


S 
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2.CDN 是 个 好 东西 


除了 刚刚 这 个 例子 以 外 ， 平 时 也 能 见 到 很 多 从 环 市 层面 进行 优化 的 
例子 。 最 第 见 的 束 是 CDN 技 术 。 


CDN 技 术 是 一 种 近 几 年 非常 火 的 技术 ， 全 称 是 Content Delivery 
Network， 内 容 分 发 网 络 。CDN 应 该 说 是 一 套 完整 的 网 络 加 速 解决 方 
案 ， 包 括 分 布 式 存储 、 负 载 均衡 、 网 络 请 求 的 重 定向 和 内 容 管理 等 多 个 
技术 环节 部 分 。 对 于 用 户 在 网 页 上 请 求 图 片 加 载 慢 ， 或 者 文件 下 载 慢 等 


非 本 地 带宽 过 小 带 来 的 数据 下 载 问 题 能 有 很 好 的 改善 作用 。 例 如 ， 当 一 
个 网 站 使 用 了 CDN 技 术 对 网 页 资源 进行 加 速 的 策略 开局 后 ， 这 些 资源 惑 
会 通过 CDN 提 供 商 的 分 发 策略 分 发 到 很 多 的 缓存 服务 器 上 去 。 当 用 户 进 
行 该 网 站 的 访问 时 ， 这 些 资源 引用 的 地 址 会 自动 指 癌 这 个 离 得 最 “ 近 ”， 
访问 最 快 的 缓存 服 务 器 节点 上 去 ， 这 样 就 能 使 资源 下 载 加 速 了 。 


互联 网 是 一 个 非 第 复杂 的 东西 ， 不 仅 是 拓扑 结构 复杂 ， 其 中 不 同 的 
交换 设备 有 着 不 同 的 交换 策略 ， 是 一 个 分 布 式 的 目 协 调 的 连通 系统 。 不 
同 运 营 商 之 间 也 会 由 于 技术 性 的 或 者 非 技术 性 的 问题 引发 跨 网 〈 跨 运营 
商 ) 的 带宽 变 罕 问 题 。 为 了 解决 这 种 问题 ， 我 们 不 仅仅 会 用 到 CDN 技 
术 ， 还 需要 使 用 一 种 叫 BGP 双 线 / 多 线 机 房 的 技术 来 进行 网 络 加 速 








BGP (Border Gateway Protocol， 边 界 网 关 协 议 ) 是 一 种 在 TCP 协 议 
上 运行 的 自治 系统 之 间 动 态 交 换 路 由 信息 的 路 由 协议 。 局 用 BGP 技 术 的 
机 房 一 般 称 作 BGP 机 房 ， 服 务 器 租用 商 或 提供 商 通过 技术 的 手段 ， 实 现 
不 同和 运营 商 能 共同 访问 一 个 耳 ， 并 且 不 同和 运营 商 之 间 都 能 以 最 快 的 速度 
访问 这 个 了 PP 地址 。 把 服务 器 放 在 BGP 机 房 给 用 户 带 来 的 好 处 就 是 ， 在 
BGP 机 房 基 本 可 以 不 考虑 不 同 的 用 户 跨 网 访问 服务 器 会 因 运 营 商 网 络 不 
同 而 产生 的 “带宽 歧视 ”问题 。 











17.1.5 ”资源 不 足 


资源 人 不足 的 情况 通常 比较 抹 烦 ， 因 为 如 果 观 察 到 服务 器 上 的 CPU、 
磁盘 IO、 网 络 IO 郑 非 常 楷 忙 ， 要 想 办 法 先 排除 是 业务 逻辑 上 设计 的 芷 漏 
导致 的 不 合理 或 者 意外 的 资源 请 求 太 多 ， 还 是 “ 真 的 ”资源 不 够 。 如 果 是 
由 于 一 些 玖 漏 导致 的 资源 请 求 过 于 集中 ， 那 么 通过 debug 或 者 优化 业务 
馆 辑 ， 还 是 能 够 获 解 的 。 但 是 如 果 不 是 这 些 问题 ， 那 就 是 资源 确实 比 客 
观 真实 的 需求 少 了 。 典 型 的 例子 就 是 ， 在 保存 日 志 的 情况 下 ， 业 务 要 求 
无 损 永 久 存 档 ， 但 是 即便 在 局 用 压缩 且 不 留 元 余 的 情况 下 ， 还 是 很 快 把 
磁盘 填 满 ， 那 就 是 典型 的 磁盘 资源 不 足 了 。 




















总 之 ， 还 是 要 先 用 一 些 办 法 确定 资源 分 配 完 竟 是 不 足 还 是 不 合理 ， 


再 用 “ 低 成 本 ”的 资源 换取 “高 成 本 ”的 资源 。 


17.2 稳定 一 一 资源 的 可 用 








稳定 性 是 压倒 一 切 的 。 在 服务 器 程序 开发 方面 ， 有 以 下 共识 。 

(1) 服务 器 快 比 服务 占 慢 要 好 。 (客户 体验 会 更 好 。) 

(20 服务 器 慢 要 比 服务 器 宕 机 好 。 《客户 体验 不 好 ， 好 歹 还 在 提 
供 服 务 ， 还 有 流量 进来 。) 

(3) 服务 器 宕 机 要 比 服务 句 损 坏 了 好 。 (已 经 是 损失 了 ， 损 失 小 


扩 吧 ， 尤 其 是 不 要 损坏 数据 。) 


如 果 在 服务 器 反应 慢 和 服务 器 宕 机 这 两 种 事件 中 一 定 要 做 一 个 选 
择 ， 一 般 都 会 选择 前 者 。 可 古 如 果 服 务 器 的 资源 不 足 怎 么 办 ? 请 求 过 
多 ， 请 求 过 于 频繁 ， 服 务 占 进行 过 规划 但 是 还 是 全 部 资源 都 用 光 ， 怎 么 
办 ? 考虑 租用 云 服 务 试 试看 。 





17.2.1 ”借助 云 服务 


如 果 资 源 占用 是 有 比较 规律 的 (周期 性 的 ) ， 而 且 峰 值 过 高 ， 这 种 
情况 下 是 比较 适合 租用 云 服务 的 。 在 峰值 到 来 时 使 用 云 服务 ， 在 峰值 过 
去 后 ， 低 谷 时 退 订 云 服务 。 


在 使 用 云 服 务 时 要 先 评估 一 下 ， 对 比 一 下 使 用 云 服 务 的 成 本 。 对 比 
的 时 候 要 对 比 两 种 方案 的 完整 成 本 ， 云 服务 的 成 本 就 是 云 平 合 的 收费 ， 
目 建 系统 的 成 本 包括 服务 器 购买 、 服 务 器 维护 、 服 务 句 折旧、 带 客 租赁 
等 ， 看 看 哪个 对 于 上 自己 来 说 更 划算 。 

















17.2.2 ^^ BK 


做 过 数据 库 开 发 的 人 对 锁 (Lock) 一 定 不 陌生 。 


一 般 的 锁 都 是 指 互 斥 锁 ， 也 瓯 是 说 系统 里 存在 这 样 一 种 资源 ，A 用 
户 在 占用 的 同时 ，B 用 户 是 不 能 占用 的 。 这 种 情形 在 日 常生 活 中 也 是 随 
处 可 见 ， 如 餐厅 里 的 座 椅 ， 一 个 用 户 在 使 用 时 其 他 用 户 就 不 能 使 用 ， 直 
到 这 个 用 户 离开 ， 座 椅 不 再 使 用 了 才能 再 被 其 他 人 占用 。 


在 计算 机 系统 里 也 有 这 种 情况 ， 当 一 个 SQL 的 事务 正在 做 多 行 的 数 
据 更 新 时 ， 通 常会 锁 住 这 些 行 ， 其 他 的 线程 要 想 读 取 这 些 行 都 要 等 待 ， 
直到 这 个 事务 释放 行 锁 。 在 一 个 系统 中 如 果 有 大 量 的 锁 资源 也 会 出 现 一 
种 奇怪 的 现象 ， 就 是 看 上 去 似乎 CPU 和 磁盘 IO 都 还 远 没 有 达到 上 限 ， 但 
征 每 个 事务 请 求 却 慢 得 让 人 无 法 忍受 。 








锁 是 一 个 在 资源 上 保证 独立 性 的 工具 ， 没 有 它 很 多 事情 是 做 不 了 
的 。 


例如 每 年 至 少 要 骂 3 次 的 12306 (五 一 长 假 、 十 一 长 假 、 春 节 长 
假 )，12306 多 少 有 点 冤枉 。 本 来 火车 的 运载 能 力 有 限 ， 票 数 有 限 ， 这 
是 事实 。 火 车 上 的 座位 甚至 是 站 位 和 刚刚 说 的 餐厅 的 情况 是 一 样 的 ， 一 
个 人 占 了 另 一 个 人 就 没 办 法 使 用 ， 这 些 占 与 不 占 的 情况 不 用 等 上 车 之 后 











去 看 ， 在 订 票 时 就 显示 出 来 了 ， 所 以 可 以 想象 ， 在 抢 票 时 12306 的 后 人 
有 几 十 万 把 大 大 小 小 的 锁 时 开 时 合 ， 让 大 家 按照 锁 开 合 的 指示 等 待 锁 资 
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的 过 程 。 而 这 个 过 程 中 ， 别 的 任何 一 个 人 都 没 办 法 获得 我 锁 住 的 这 张 








HH 


FIN o 


淘宝 的 交易 系统 与 12306 有 着 很 大 的 不 同 。12306 上 的 信息 完全 是 一 
对 一 的 互 斥 资源 ， 必 须 在 全 国 范围 内 的 全 局 进行 锁 互 斥 和 和 争 抢 。 而 淘 军 
的 每 个 店铺 都 是 在 独立 提供 自己 的 货品 ， 甚 至 货品 的 表示 只 是 一 个 数 
字 ， 而 非 具体 的 每 个 不 可 替换 的 货品 。 那 么 这 些 货品 可 以 被 分 解 到 几乎 
任意 多 的 小 集群 小 系统 中 去 对 外 提供 服务 ， 再 辅 以 CDN 绥 存 技术 降低 网 
络 延迟 ， 用 户 体验 自然 要 比 12306 高 几 个 档次 。 这 并 非 是 说 12306 技 术 水 
平 比 淘宝 差 太 多 ， 而 是 他 们 做 的 压根 就 不 是 一 样 的 事情 。 











17.2.3 HEB 


如 果 人 硬件 资源 真 的 很 紧张 ， 既 没 办 法 做 锁 分 散 ， 也 没 办 法 通过 租用 
云 服务 来 解决 。 还 有 一 个 方法 来 保证 在 服务 器 不 死机 的 情况 下 对 外 提供 
服务 ， 那 就 是 让 用 户 排 队 。 








排队 这 种 事情 司空 见 惯 ,尤其 是 在 吃饭 的 时 候 。 如 果 在 吃 午 餐 或 者 
晚餐 的 时 候 到 各 大 商场 的 招牌 餐厅 去 看 看 就 知道 了 ， 人 气 旺 的 店铺 外 面 
征 有 取 号 机 的 ， 没 有 取 号 机 的 店铺 也 会 有 两 个 洒 腕 妹 子 招呼 拿 号 排队 。 
银行 也 一 样 ， 银 行 是 比较 典型 的 “硬件 资源 不 足 ” 但 又 要 提供 服务 的 场 


景 ， 只 能 让 用 户 等 。 


在 网 络 服 务 层 面 也 有 排队 现象 吗 ? 有 的 ， 只 是 有 的 体验 做 得 好 ， 有 
的 体验 做 得 差 。 


排队 也 是 有 比较 成 熟 的 方案 的 ， 通 第 来 说 可 以 考 碟 在 服务 器 和 浏览 
器 两 侧 进行 配合 。 核 心思 路 如 下 。 


(1) 能 够 在 客户 端 〈 浏 览 器 ) 挡住 的 访问 坚决 不 要 放 到 服务 右上 


例如 ， 可 以 用 JavaScript 代 码 来 进行 “ 封 堵 "， 至 少 做 一 个 比较 好 的 倒 
计时 提示 来 告诉 访问 者 前 面 还 有 多 少 人 ， 或 者 要 倒计时 等 多 久 才能 排队 


等 到 位 。 


(2) 能 够 分 散 到 多 个 服务 器 上 进行 排队 提示 的 内 容 坚决 不 要 集中 
到 一 台 服 务 器 上 来 。 这 个 原则 和 负载 均衡 的 原则 是 没有 区 别 的 ， 我 们 不 
布 望 大 家 都 一 贸 蜂 到 窗口 来 问 “* 还 差 多 少 人 到 我 "。 能 够 用 大 广告 牌 说 明 
的 问题 就 写 在 大 广告 牧 上， 大 家 自己 看 。 所 以 在 服务 占 上 也 可 以 考虑 用 
类 似 的 方式 进行 分 散 性 的 广播 ， 而 不 要 集中 到 一 台 服 务 器 去 做 排队 询 
问 。 





17.2.4 ”谨防 “ 雪 朋 ” 


在 不 少 介 绍 调 优 和 架构 的 资料 里 会 提 到 这 样 一 个 词汇 “ 雪 朋 ”。“ 雪 
骨 ” 是 一 种 自然 现象 ， 也 是 一 各 灾害， 通常 发 生 在 和 常年 积 雪 的 山区 (图 
17-1815 , 





图 17-1 雪崩 





由 于 声波 震动 或 者 地 这 活 动 等 原因 ， 导 致 原来 覆盖 在 山上 的 积 雪 产 
生 一 些 内 应 力 上 的 变化 ， 使 得 它 开 始 像 泥石流 那样 具备 一 定 的 流动 性 ， 
而 后 小 规模 的 流动 性 逐渐 引发 大 规模 的 流动 性 形成 灾害 。 也 就 是 说 ， 一 
个 几 万 吨 重 甚至 几 十 万 吨 重 的 雪 盖 形成 的 重力 势能 转化 为 动能 的 破坏 性 





可 能 最 开始 只 是 一 只 马 在 山顶 上 落 了 一 下 ， 或 者 是 一 个 人 大 吼 了 一 声 。 


在 系统 架构 中 提 到 的 雪崩 和 这 个 现象 看 上 去 很 类 似 ， 就 是 由 于 一 台 
服务 器 或 者 一 台 服 务 右 中 的 某 个 模块 肥 生 故障 进而 引发 连锁 反应 ， 最 后 
导致 大 量 的 服务 器 或 者 软件 模块 无 法 正常 工作 ， 这 种 现象 也 叫做 “急剧 
变 坏 ?现象 。 例 如 ， 御 用 的 负载 均衡 型 的 集群 里 就 会 有 类 似 的 现象 用 
ae 





假如 有 一 个 PHP 的 集群 ，10 个 节点 ， 前 端的 路 由 器 用 Round 

Robin 〈 等 权 轮 询 ) 算法 为 后 面 10 台 PHP 转 发 HTTP 请 求 ， 当 每 台 服 务 器 
都 达到 CPU 占用 80% 的 负载 时 ， 其 实 压力 已 经 接近 极限 了 。 此 时 如 果 有 
一 台 PHP 服 务 器 突然 停止 响应 ， 根 据 负 载 均 衡 协 议 ， 这 个 节点 会 被 暂时 
移出 整个 负载 均衡 集群 ， 那 么 新 进来 的 负载 就 会 被 压 在 另外 9 台 服 务 器 
上 ， 粗 略 计算 一 下 ， 其 他 9 台 服 务 器 的 负载 大 约会 上 升 到 89%， 进 而 有 
更 大 概率 引发 其 他 服务 器 的 骨 泪 ， 而 般 溃 的 服务 器 再 被 移出 负载 均衡 集 
群 …… 后 面 的 事情 大 家 想 想 都 能 知道 ， 服 务 器 集群 月 训 得 越 来 越 快 ， 直 
到 整个 集群 完全 垮 掉 。 这 种 由 一 个 点 的 故障 引起 整个 系统 骨 误 的 现象 就 
叫做 雪 衣 现象 。 














要 想 防 止 雪崩 需 要 做 好 以 下 几 件 事情 。 


(1) 对 服务 顺 负 载 的 估算。 对 服务 需 的 负载 应 该 有 一 个 比较 合理 
的 估算 。 来 目前 端的 HITP 请 求 或 者 其 他 形式 的 压力 都 可 以 通过 软件 来 


模拟 进行 压力 测试 ， 测 试 一 全 服务 器 在 CPU 达到 60% 左 右 时 的 负载 数 


(20 线 上 测试 估算 服务 器 数量 。 与 其 说 线 上 测试 ， 不 如 说 按 需 购 
买 。 在 把 服务 句 上 的 服务 释放 之 后 ， 会 有 用 户 正 常 的 负载 需求 从 互联 网 
上 上 流 进 来 ， 这 个 流量 是 有 着 周期 规律 波动 性 的 ， 如 在 一 天 内 有 规律 的 小 
动 性 ， 在 一 周 内 有 规律 的 波动 性 。 这 些 峰 值 和 低谷 出 现在 什么 时 间 ， 负 
载 分 别 为 多 少 ， 可 以 通过 对 单 合 服务 器 的 CPU 以 及 网 络 连接 监控 来 捕捉 
到 。 进 而 可 以 推算 出 峰值 和 低谷 各 目 需 要 的 服务 占 数 量 一 一 在 安排 资源 
时 要 多 准备 一 些 。 





例如 ， 峰 值 时 如 果 计 算出 需要 2 台 服 务 器 ， 每 台 服 务 器 60% 的 负 
载 ， 其 实 这 时 服务 器 集群 是 没有 真正 * 宛 余 ” 的 ， 因 为 一 旦 其 中 的 一 台 服 
务 器 由 于 故障 停止 响应 立刻 会 引发 雪 衣 ， 所 以 这 时 应 该 是 在 刚刚 的 基础 
上 加 一 台 服 务 器 更 为 保险 ， 即 一 共 3 台 服务 器 ， 每 台 服 务 器 40% 的 CPU 
负载 。 如 果 计 算出 需要 4 台 服 务 器 ， 每 台 服 务 器 60% 的 负载 ， 则 如 果 一 
台 服 务 器 发 生 故 障 ， 其 余 3 台 服务 器 的 CPU 负载 会 被 压力 推 升 到 80%， 


但 是 应 该 远 没有 第 一 种 情况 危险 。 











请 注意 ， 在 负载 均衡 的 集群 中 防 正 雪 裔 是 一 个 资源 和 风险 平衡 的 过 
程 。 选 好 这 个 平衡 点 就 能 在 保证 不 发 生 雪崩 的 情况 下 资源 投入 最 少 。 
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事情 。 任 何 技术 、 任 何方 法 都 有 其 特点 和 局 限 性 ， 只 有 融会 贯通 地 使 用 
才能 在 以 构 优 选中 获得 更 好 的 思路 和 解决 方案 。 


第 18 草 ”数据 解读 与 数据 的 价值 


本 章 是 杂谈 性 的 内 容 ， 是 基本 脱离 技术 内 容 以 外 的 一 些 延 展 性 的 话 
题 讨 论 。 阅 读 起 来 应 该 会 更 有 一 定 的 发 散 性 ， 也 会 更 觉得 轻松 一 些 。 


在 前 几 章 里 已 经 介绍 过 关于 数字 化 运营 的 一 些 基 本 知识 了 ， 只 要 做 
好 下 面 几 步 ， 就 拥有 了 最 基本 的 运营 条 件 。 





(1) 数据 收集 。 


(2) 数据 存储 。 


(3) 数据 结构 化 建 模 。 


(4) 指标 体系 。 





不 需要 太 多 高 深 的 知识 ， 只 需要 认真 把 这 每 个 环节 都 做 好 ， 一 个 公 
司 的 数字 化 运营 吏 会 目 然 传承 和 欠 代 并 帮助 公司 运营 目 如 。 





18.1 运营 指标 





间 标 作为 独立 的 一 节 知识 在 第 5 章 已 经 进行 过 讨论 了 。 


运营 指标 和 普通 的 指标 有 什么 区 别 呢 ? 从 名 字 上 来 看 ， 运 营 指标 应 
该 是 指标 的 一 个 子 集 ， 也 就 是 说 有 部 分 指标 是 可 以 作为 运营 指标 来 用 
的 ， 有 一 部 分 则 不 适合 。 


运营 指标 ， 顾 名 思 义 ， 是 为 运营 直接 服务 的 指标 。 不 同行 业 的 运营 
指标 ， 无 论 是 关注 的 内 容 还 是 关注 的 周期 其 实 是 不 一 样 的 。 


在 日 常生 产 工作 中 ， 利 用 运营 指标 能 做 的 事情 主要 是 纵向 和 横 疝 的 
对 比 。 


纵 问 ， 就 是 一 个 部 门 或 者 一 个 人 ， 对 不 同时 段 的 同一 指标 进行 对 
比 ， 以 判断 其 运行 状态 是 好 转 还 是 恶化 ， 是 进步 还 是 退步 ， 如 一 个 部 门 
的 月 生产 产值 ， 同 比 增长 1000 万 元 ， 坏 比 增长 200 万 元 。 这 就 是 纵 癌 比 
较 。 








横 问 ， 就 是 指 部 门 和 部 门 之 间 ， 个 人 和 个 人 之 间 ， 无 其 是 那些 职能 
相同 的 部 门 和 职能 相同 的 人 之 间 的 对 比 ， 能 够 看 出 工作 效率 的 差异 和 人 鳃 
邓 的 多 舞 。 例 如 ， 张 三 的 月 销售 额 为 100 万 元 ， 李 四 为 30 万 元 ， 王 于 为 
50 万 元 。 通 过 对 比 可 以 得 到 清晰 的 工作 能 力量 化 排名 ， 这 就 是 典型 的 横 


向 比较 。 





指标 体系 的 建立 和 对 比 对 于 企业 内 部 营造 一 种 积极 进取 的 气氛 是 非 


常 重 要 的 。 


18.1.1 互联 网 类 型 公司 常用 指标 





下 面 举 几 个 互联 网 类 型 的 公司 最 常用 的 指标 例子 。 


1. 搜 索 类 产品 


搜索 类 产品 大 多 是 一 些 搜索 引擎 网 站 ， 有 的 网 站 搜索 的 对 象 比较 宽 
泛 ， 有 的 则 是 垂直 类 别 的 ， 如 只 供 搜索 各 种 新 闻 ， 或 者 只 供 搜索 各 种 图 
片 等 。 搜 索 类 产品 提供 的 服务 核心 是 一 个 或 几 个 关键 词 到 一 些 链接 的 映 
射 ， 通 过 这 个 映射 可 以 迅速 用 关键 词 跳 转 到 目标 页 面 。 盘 利 当 然 惑 是 靠 
那些 希望 购买 这 种 关键 词 对 目 己 页 面 有 高 命中 率 的 商家 了 。 上 所 以 目 然而 
然 就 有 点 击 量 、 转 化 率 等 这 些 他 们 比较 关心 的 指标 了 。 








常用 指标 有 以 下 几 种 。 
日 点 击 数 (Page Views) : 每 天 网 站 点 击 数量 。 


每 月 独立 访问 量 (Monthly Uniques) : 在 没有 用 户 体系 的 搜索 类 产 
品 里 一 般 是 指 独立 卫 的 访问 量 ，1 个 IP 访 问 1 次 和 10 次 都 算 1 个 独立 访 


点 击 付 费 链 接 的 用 户 百 分 率 CPercentage of Users that Click a Paid 
Link) : 也 就 是 “转化 率 ”"， 表 示 列 在 用 户 面 前 付费 链接 里 有 和 多少 比 例 的 
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左右 算是 比较 正常 。 








每 次 点 击 收 入 (Revenue per Click) : 平均 每 次 点 击 的 收入 。 

2. 游 戏 类 产品 

游戏 类 产品 也 有 相应 的 一 些 指标 。 

日 /月 活跃 用 户 (Daily/Monthly Activated Users) : 也 就 是 俗称 
的 “日 活 ” 和 “月 活 ”。 一 般 来 说 ， 游 戏 的 繁荣 程度 很 大 因素 来 自 于 活跃 玩 
家 的 数量 。 日 活 /月 活 指 标 不 只 在 游戏 类 产品 中 才 会 被 人 用 到 ， 很 多 软 
件 产 品 也 都 会 对 这 个 值 进行 统计 。 只 是 游戏 是 一 个 用 户 互动 性 很 强 的 产 
品 ， 它 的 繁荣 程度 与 这 个 值 天 联 太 密切 ， 所 以 这 个 指标 才 补 看 得 很 重 




















HE 


付费 用 户 转 化 率 (Conversion Rate to Paying User) : 付费 用 户 与 注 
册 用 户 的 占 比 。 


平均 每 用 户 收 入 (Average Revenue per User, ARPU) : 指 的 是 以 
月 或 者 年 为 单位 的 从 每 个 用 户 届 上 平均 收入 多 少 。 


18.1.2 ”注意 事项 











先 说 一 个 慕 观 的 观点 ， 也 是 很 多 数字 化 运营 中 数字 解读 者 容易 陷入 
的 误区 一 一 指标 能 解释 一 切 。 但 是 事实 却 不 是 这 样 一 一 运营 指标 能 看 到 
现象 ， 甚 至 可 以 说 对 现象 的 感知 及 其 灵敏 度 ， 但 是 它 永 远 不 能 目 我 解释 
原因 。 





不 仅 是 这 样 ， 有 经 验 的 运营 人 员 可 以 通过 自己 的 经 验 和 行业 知识 对 
原因 做 试探 性 的 推 上 关 和 解释 ， 但 是 仍然 不 能 通过 指标 来 直接 并 准确 解释 
原因 。 它 只 是 一 个 仪表 ， 只 是 一 个 和 温度 计 、 体 检 报 告 并 无 二 致 的 结果 
告知 性 的 数字 化 表现 ， 而 非 原 因 解 释 性 的 。 











这 就 好 比 人 们 感觉 不 舒服 ， 去 医院 做 一 个 里 体 检查 ， 检 查 结 末 是 
炎 ， 那 胃炎 应 该 怎么 吃 药 是 有 成 熟 的 解决 办 法 的 ， 不 管 是 老 中 医 开 的 汤 
A, Gee A, WME, MoT wine. (ERT EEA 
得 的 骨 炎 ? 是 骏 饮 骏 食 导致 的 ， 是 饮酒 过 度 引 起 的 ， 是 长 期 吃 刺 油性 食 
物 引起 的 ， 还 是 由 其 他 原因 引起 的 细菌 性 感染 ? 这 个 在 报告 里 未 必 能 




















在 驾驶 汽车 的 过 程 中 ， 看 到 油箱 表 下 降 较 快 也 只 是 看 到 一 个 现象 ， 
当 它 下 降 到 红线 位 置 时 就 是 提醒 我 们 应 该 去 加 油 了 。 人 至 于 为 什么 下 降 
快 ， 是 因为 刚刚 息 坡 ， 油 门 给 得 过 大 ， 还 是 油箱 有 渗 漏 ? 仪表 盘 是 没 办 





法 做 解读 的 ， 只 能 根据 进一步 的 各 环节 检修 进行 排 碍 。 





那 汽 车 仪表 盘 的 场景 有 没有 “优化 ”的 手段 呢 ? 如 有 果 想 把 这 个 排查 的 
时 间 过 程 缩短 ， 征 不 是 可 以 在 这 些 环节 各 目 再 设立 一 个 指标 作为 众多 仪 
表 的 一 员 ， 如 “平均 坡度 仪 一 一 记录 刚刚 过 去 的 2 小 时 里 怜 坡 的 角度 平 
均 为 多 少 ;“ 平 均 油门 ”一 一 记录 刚刚 过 去 的 2 小 时 里 油门 给 得 多 大 ， 对 
比 一 下 看 比 平时 大 还 是 小 。 如 末 这 两 个 指标 都 正常 ， 那 就 说 明 十 有 八 九 
EMEARI, hatin Bey, Ape SHA HE. K 
WL BENE DC AES e. MAKE CUBE Se Rae WIT RA 
OA ARME? 绝对 不 是 。 就 是 为 了 把 这 个 空 重 将 近 280 吨 的 大 家 
伙 每 个 关键 环节 的 实时 状态 都 展现 在 飞行 员 的 面前 ， 来 保证 飞行 的 安全 
进行 。 图 18-1 所 示 为 空 客 A380 的 驾驶 舱 仪 表盘 ， 够 复杂 吧 ? 密集 恐惧 症 


患者 请 绕 行 。 









































图 18-1 空 客 A380 的 驾驶 舱 仪 表盘 


在 驾车 的 例子 里 , “优化 ?是 加 引号 的 ， 其 实 原因 也 很 简单 ， 就 是 说 
说 “优化 ?是 不 是 真 的 够 优 。 这 个 事情 究竟 是 不 是 值得 为 此 专门 放 两 个 仪 
表 在 车 上 ， 毕 竟 它 是 有 成 本 的 ， 而 且 仪 表盘 上 又 多 了 两 个 示 数 。 这 也 是 
在 指标 化 运营 中 一 直面 临 的 一 个 矛盾 ， 指 标的 含义 、 指 标的 数量 设置 要 
合理 ， 要 让 这 个 指标 的 维护 和 解读 的 成 本 与 它 的 作用 和 收益 相称 。 
扩 请 读者 一 定 要 注意 。 














18.2 ”AB 测试 








AB 训 试 在 很 多 互联 网 产品 中 都 很 常用 ， 甚 至 有 很 多 老牌 的 软件 企 
业 也 从 这 种 方式 中 汲取 经 验 。 


AB 测 试 指 的 是 什么 呢 ? 


在 我 看 来 ，AB 测 试 是 一 种 评价 体系 的 核心 思想 。 大 致 的 工作 流程 
如 下 ， 当 不 知道 一 种 产品 的 A 方案 好 还 是 B 方 采 好 时 ， 或 者 两 种 设计 完 
全 不 同 的 产品 A 和 B 的 市 场 反 应 如 何 时 ， 会 考虑 找 两 组 用 户 来 进行 测 
试 。 


如 设置 两 个 对 比 组 ，A 组 100 人 ，B 组 100 人 ， 给 A 组 产品 的 A 方案 ， 
给 B 组 产品 的 B 方 案 ， 然 后 观测 各 种 反应 指标 。 最 后 得 出 一 种 相对 客观 
的 比 对 结论 。 这 就 是 AB 测 试 的 整体 思路 。 




















AB 测 试 虽然 对 于 互联 网 产品 是 一 种 舶 来 品 一 一 在 很 多 传统 行业 里 
早 就 已 经 开始 使 用 了 ， 而 且 近 几 年 也 逐渐 应 用 更 为 广泛 。 





传统 行业 里 有 哪些 地 方 用 了 AB 测 试 吗 ? 有 的 。 


例如 ， 药 品 的 临床 测试 ， 有 很 多 新 药 ， 要 测试 其 是 否 真 的 有 效 ， 或 
者 其 药 效 是 否 比 其 他 药 的 药 效 好 ， 通 常 采 用 的 方法 叫做 “随机 对 照 试 
验 ”(Randomized Controlled Trial, RCT) ， 也 就 是 将 病 患 分 为 两 组 ， 然 


后 一 组 给 药 一 组 不 给 药 ; 如 果 是 对 比 两 种 药物 ， 那 就 是 一 组 给 待 测 药 一 
组 给 男 一 种 对 比 药物 ， 在 疗程 结束 后 对 比 治愈 率 。 为 了 避免 人 为 情绪 化 
因素 以 及 个 别 样 例 的 特殊 反应 对 测试 结果 的 影响 ， 又 进化 出 一 种 叫 
做 “大 样本 随机 双 谨 试验 ?的 办 法 ， 算 是 对 “随机 对 照 试 验 ” 的 进一步 科学 
化 的 诠释 。 


两 者 的 不 同 扣 在 于 : 


第 一 ， 大 样本 ,样本 量 加 大 稀释 个 别 样 例 特殊 反应 对 统计 结果 的 影 





第 二 ， 双 盲 ， 就 是 让 病 患 和 医生 都 对 药品 和 分 发 对 象 事先 不 知晓 ， 
让 所 有 人 都 在 这 个 被 他 人 安排 好 的 测试 旅程 中 一 步 一 步 进行 试验 ， 直 到 
最 后 再 去 对 比 测试 的 结果 。 这 样 束 避 免 了 在 人 与 人 接触 的 过 程 中 由 于 主 
观 情绪 掺 杂 在 交谈 里 引起 的 一 些 难以 把 握 的 因素 。 例 如 ， 医 生 如 果 主 观 
上 对 这 种 药 不 看 好 ， 或 者 主观 上 认为 这 种 药 效果 不 错 ， 在 交谈 的 过 程 中 
或 多 或 少 会 有 情绪 上 对 病 患 的 暗示 ， 那 这 种 上 暗示 对 于 治疗 配合 程度 的 影 
啊 会 干扰 测试 结果 。 假 如 治疗 结果 好 ， 就 说 不 清宫 竟 是 药品 真 的 很 管 
用 ， 还 是 其 中 有 更 多 “安慰 剂 ” 吕 的 成 分 。 











除 此 之 外 ， 国 内 在 推行 一 些 制 度 或 者 管理 办 法 时 也 都 有 “试点 企 
业 ”“ 经 济 特区 ”的 一 些 局 部 区 别 性 的 制度 ， 目 的 就 是 为 了 看 这 种 AB 测 
试 的 对 比 效 果 ， 效 末 好 了 惑 推广， 效果 不 好 就 停 掉 再 试 其 他 方法 。 


[1] 安奈 剂 : Placebo， 具 有 一 定 的 作用 ， 对 有 心理 因素 参与 控制 的 自主 
神经 系统 功能 如 血压 、 心 率 、 胃 分 泌 、 呕 吐 、 性 功能 等 的 影响 较 大 。 它 
的 心理 影响 效应 对 病症 的 绥 解 在 临床 上 已 经 得 到 了 相当 程度 认可 。 





18.2.1 网 页 测试 


在 互联 网 产品 的 开发 过 程 中 ，AB 测 试 的 使 用 也 是 非常 广泛 的 ， 尤 
其 是 在 拿 不 准 用 户 喜 好 的 时 候 。 


在 一 个 网 页 〈 界 面 ) 上 线 时 ， 再 好 的 经 验 也 没 办 法 判断 完 竟 这 一 次 
发 布 结果 如 何 ， 在 有 两 个 以 上 选择 时 也 会 面临 这 种 问题 。 那 就 不 如 都 交 
给 市 场 ， 让 市 场 的 反应 说 了 算 。 


例如 ， 要 做 一 个 网 站 网页)， 不 确定 用 户 对 哪 一 个 更 喜欢 ， 那 就 
在 试 运营 或 者 公测 时 让 访问 的 用 户 被 随机 分 配 到 一 种 方案 上 ， 如 果 有 两 
种 备 选 方案 ， 那 就 是 A 方 案 和 B 方 案 。 让 他 从 头 到 尾 都 使 用 这 一 种 方案 
风格 对 网 站 《网 页 ) 进行 访问 。 记 得 把 他 访问 的 路 径 记 录 下 来 。 茶 一 个 
人 个 案 性 的 访问 路 径 、 访 问 时 间 、 扣 击 数 可 能 不 能 说 明 什么 ， 这 必须 看 
宏观 统计 。 在 测试 一 个 网 站 的 过 程 中 要 至 少 选 择 数 百人 进行 随机 分 派 ， 
有 条 件 也 可 以 多 选 一 些 。 











但 是 为 了 保证 测试 不 是 由 于 提供 的 内 容 导 致 用 户 的 好 恶 不 同 而 只 是 
由 于 表现 形式 不 同 的 ， 那 就 要 保证 对 A、B 两 组 人 只 提供 外 形 ( 样 式 ) 
差异 的 网 站 。 因 为 除了 网 站 外 形 的 不 同 以 外 ， 网 站 提供 的 内 容 、 访 问 产 
生 的 延迟 等 都 会 对 网 站 对 用 户 的 吸引 程度 有 影响 ， 这 个 因素 要 尺 可 能 排 
除 在 外 。 





在 做 完 一 轮 测 试 以 后 ， 周 期 是 目 己 设 定 的 ， 可 以 是 3 天 ， 也 可 以 是 7 
天 或 其 他 的 天 数 ， 如 果 基 本 能 够 保证 每 个 用 户 从 第 一 次 看 到 网 站 入 口 开 
台 就 被 分 成 A、B 两 组 中 的 一 组 而 且 从 一 而 终 ， 那 就 可 以 看 看 以 下 指 
标 。 以 每 种 方案 为 观 峙 单位 。 


C1) 用 户 平 均一 次 访问 的 页 数 。 





(20 用 户 平 均 每 页 逗留 时 间 的 长 度 。 


(3) 用户 再 访问 比例 。 





(4) N 天 留存 率 〈 回 访 率 ) 。 





通过 这 些 比 较 大 概 就 能 得 出 方案 名 优 执 劣 的 结论 了 。 也 可 能 两 者 差 
不 多 ， 也 可 能 都 不 太 理想 但 是 其 中 一 个 略 好 一 些 ， 但 是 这 时 已经 能 够 做 
出 选择 了 。 


18.2.3 方案 测试 


如 宁 不 是 一 个 网 站 ， 而 是 茶 一 个 产品 的 方案 呢 ? 还 能 这 么 简单 地 去 
做 AB 测 试 吗 ? 其 实 也 是 可 以 的 ， 因 为 AB 测 试 不 是 一 个 具体 的 测试 工具 
而 是 一 种 测试 的 思想 。 那 我 们 再 来 看 一 个 例子 。 





我 们 以 一 个 右 下 角 分 辩 率 为 300x200 像 素 的 升 窗 广告 位 产品 为 例 。 
如 果 你 是 这 个 广告 位 产品 的 产品 经 理 ， 你 需要 考虑 这 个 广告 位 如 何 安排 
版 面 的 问题 ， 至 少 有 以 下 两 种 选择 。 


其 一 ， 可 以 推送 一 幅 大 的 广告 。 占 满 整 个 小 广告 屏 ， 然 后 让 里 面 的 
4 个 广告 位 进行 2 秒 为 单位 的 滚动 。 如 图 18-2 器 所 示 为 一 个 6 幅 图 自动 切 
换 的 样 例 ， 能 够 看 到 下 面 有 6 个 切换 按钮 ， 在 画面 深 动 切换 时 ， 如 果 想 
跳 转 到 其 他 编写 的 广告 画面 则 单 击 相 应 按钮 进行 切换 。4 幅 广告 也 是 同 
理 ， 只 是 切换 按钮 只 有 4 个 。 





图 18-2 ”6 幅 图 自动 切换 


其 二 ， 可 以 推送 4 幅 小 的 广告 。 让 这 4 幅 小 的 广告 拼 起 来 占 满 整个 小 
广告 屏 。 如 图 18-3 中 所 示 为 一 个 9 幅 图 的 样 例 ， 版 式 为 3x<3， 也 有 4 幅 图 
的 ， 即 版 式 为 2x2。 








图 18-3 ”9 幅 图 同时 显示 


在 用 户 触 友 了 这 次 广告 推送 的 事件 以 后 ， 广 告 后 台 就 要 做 出 反应 ， 
可 以 用 随机 的 方法 进行 1: 1 的 推送 ， 即 让 这 两 种 展示 方式 在 每 次 请 求 中 
的 几率 均等 ， 都 是 50%。 一 般 来 说 ， 这 基本 也 能 够 保证 足够 的 随机 性 
Te 
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因为 已 经 有 了 足够 的 且 确实 的 理由 。 




















在 做 互联 网 产品 时 千 万 不 要 犯 经 验 主 义 的 错误 ， 经 验 永 远古 局 限 
的 ， 唯 一 不 变 的 东西 就 是 变化 本 身 。 像 这 种 广告 ， 在 没有 测试 之 前 不 能 
武断 地 认为 一 定 是 哪个 更 好 ， 因 为 两 种 方式 也 确实 各 有 优 缺 点 。 














第 一 种 大 广告 好 处 是 图 片 清晰 ， 内 容 可 以 更 丰富 ;不 好 的 因素 是 滚 
动 ， 滚 动 就 意味 痢 不 能 一 目 了 然 地 看 清 所 有 的 信息 。 第 二 种 广告 的 好 处 
是 一 目 了 然 ; 不 好 的 因素 是 可 用 的 分 辩 率 变 小 ， 文 字 和 图 片 的 展示 都 比 
第 一 种 更 为 有 限 。 哪 种 转化 率 高 只 能 通过 比 对 结果 的 数据 来 说 话 了 。 

















扩展 一 下 这 个 话题 。 如 宁 想 把 这 个 例子 做 到 极致 ， 还 可 以 答 试 对 每 
次 弹出 的 信息 做 分 类 。 区 分 一 下 聂 材 和 题材 ， 在 相同 的 素材 和 题材 下 面 
去 对 比 看 哪 一 种 转化 率 高 。 如 最 后 方案 AB 测 试 对 比 结果 可 能 如 表 18-1 
所 示 。 


表 18-1 ABW L5 


方案 一 转化 率 (%) | 方案 二 转化 率 (99) 

















如 果 能 够 得 到 这 样 一 个 表格 ， 那 么 在 不 同 的 广告 投放 方案 被 触发 时 
是 可 以 采用 不 同 的 排版 策略 的 ， 这 样 会 比 “一 刀 切 ”的 排版 方式 提供 更 大 
的 全 局 转化 率 。 





其 他 维度 上 的 对 比 可 以 再 想 其 他 方式 ， 总 之 ， 有 了 AB 测 试 ， 基 本 
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[1] 图 所 来 源 于 素 东 商城 截图 。 
[2] 图 片 来 源 于 淘宝 网 截图 。 





18.2.3 KERE 





在 洲 戏 新 版 本 的 发 布 环节 中 有 一 个 名 词 叫 * 灰 度 发 布 "。 这 个 词 很 形 
象 ， 因 为 它 表 示 的 就 是 一 个 “ 黑 日 混杂 ”的 情况 。 

那 “ 黑 ”和 “ 白 ” 分 别 指 什么 呢 ? 其 实 我 们 可 以 认为 “ 黑 * 束 是 旧版 
本 ,“ 白 ”是 新 版 本 ， 在 两 个 版 本 进行 更 达 时 束 是 一 个 从 “ 黑 ” 到 “ 白 ” 的 过 





一 般 一 个 游戏 的 客 尸 端 从 局 动 束 开始 检测 是 否 有 新 版 本 可 以 更 新 ， 
如 果 有 ， 它 束 会 局 动 更 新 模块 开始 下 载 ， 并 把 这 些 文件 禾 盖 到 客户 端 游 
戏 的 程序 中 去 。 不 得 不 承认 ， 即 便 在 技术 积累 非常 好 的 公司 里 ， 在 全 网 
范围 内 做 更 新 都 是 一 件 很 有 风险 的 事情 ， 这 个 风险 很 大 程度 上 已 经 不 是 
技术 层面 的 风险 了 一 一 即便 在 封 测 阶段 、 内 测 阶段 、 体 服 公 测 阶段 〈 在 
体验 服务 器 上 进行 的 半 公 开 测 试 ) 的 测试 都 能 通过 ， 不 死机 、 不 闪 退 、 
不 卡 顿 ， 其 实 也 并 不 能 保证 在 全 网 更 新 后 游戏 论坛 会 被 吐槽 的 人 民 和 群众 
刷 屏 。 毕 竟 游 戏 版 本 中 的 对 错 不 是 以 技术 标准 来 衡量 的 ， 更 多 的 是 玩家 
情绪 的 反应 ， 而 情绪 这 个 东西 义 太 复杂 ， 在 这 些 测 试 的 阶段 也 不 一 定 能 
测 出 好 的 效果 。 怎 么 办 ?“ 灰 度 发 布 " 应 运 而 生 。 

















用 策略 文件 进行 控制 ， 可 以 仅 对 全 网 环境 中 的 部 分 用 户 一 一 可 以 是 
5%， 可 以 是 10%， 也 可 以 再 多 一 些 (但 是 这 些 数量 级 比 封 测 和 体 服 的 数 








量 级 还 是 大 多 了 ) 进行 更 新 ， 看 看 他 们 的 反应 。 这 些 反 应 有 的 会 直接 体 
现在 当天 的 DAU“ 上 日 活跃 用 户 ) 上 ， 也 可 能 体现 在 下 面 接连 几 天 的 
DAU 上 ， 也 可 能 体现 在 其 他 指标 上 ， 也 有 可 能 会 更 直接 地 体现 在 官网 论 


坛 上 或 者 客服 的 电话 里 。 








每 次 “ 灰 度 及 布 ” 都 古 一 个 决 倘 的 实验 而 已 ， 而 接 下 来 就 是 两 种 选 
择 。 一 种 ， 反 啊 展 好， 继续 更 新 到 全 网 范围 内 。 另 一 种 ， 反 啊 不 理想 ， 
把 已 经 升级 的 客户 端 回访 到 前 一 个 稳定 版 本 一 一 不 能 变 好 起 码 也 要 保持 
现状 。 











“ 灰 度 发 布 ?在 游戏 里 用 得 多 只 是 因为 游戏 的 版 本 更 返 比 较 频 繁 ， 仅 
此 而 已 ， 并 非 它 只 适合 于 游戏 软件 。 其 他 任何 的 可 以 通过 互联 网 进行 分 
发 的 软件 产品 都 可 以 采用 这 种 思路 ， 甚 至 是 云端 用 网 页 来 实现 的 软件 也 
能 用 这 种 方式 进行 试探 性 的 用 户 反 馈 测 试 。 思 路 就 是 这 样 ， 简 单 吧 ? 





不 要 小 看 这 个 简单 的 东西 ， 用 得 好 会 让 产品 每 次 都 能 顺利 爬 合 阶 ， 
一 步 一 步 走 问 正 确 的 方向 ， 这 比 求助 任何 行业 专家 都 要 成 本 低 而 且 反 馈 





18.2.4 注意 事项 





AB 测 试 虽然 好 用 ， 但 是 也 需要 注意 技巧 ， 尤 其 是 它 的 局 限 性 。 请 
务必 注意 ! 


AB 训 试 测 试 的 是 两 种 不 同 的 方案 ， 虽 然 能 够 比较 出 哪 一 种 效果 更 
好 ， 然 而 方案 的 相 异 点 越 多 ， 越 无 法 定位 造成 影响 的 原因 。 








1. 量 化 比较 对 象 


在 对 比 的 过 程 中 尽 可 能 去 量化 比较 的 对 象 。 例 如 ， 在 网 站 外 形 的 比 
较 中 ， 字 体 大 小 的 磅 数 ， 显 示 窗 体 大 小 的 尺寸 ， 每 页 的 行 数 ， 如 果 想 进 
行 研究 把 他 们 作为 对 比 的 对 象 的 话 ， 这 些 值 是 要 量化 的 。AB 测 试 有 可 
能 会 进行 多 轮 ， 多 轮 之 间 的 结果 对 比 要 形成 一 定 的 结论 性 的 东西 ， 也 就 
是 要 试 出 一 个 经 验 值 (Magic Number) 或 者 一 个 知识 。 至 少 下 一 次 再 做 
司 类 的 事情 不 需要 从 头 开 始 试 起， 而 如 果 要 试 ， 也 就 是 试 一 下 有 没有 比 
这 个 已 知 的 最 好 值 更 好 的 值 。 这 对 于 “创新 即 生命 ”的 互联 网 产品 是 极 有 
意义 的 。 你 能 接受 所 有 的 运营 人 员 每 天 都 在 用 “大 一 点 ”" “稍微 有 点 
小 ”，“ 不 够 快 ”这 种 感性 的 说 法 来 在 彼此 之 间 传 递 信息 吗 ? 如 果 不 能 
那 就 尽量 做 到 量化 吧 。 











2. 单 一 化 





两 个 网 站 方案 ， 色 调 不 同 ， 文 字 大 小 不 同 ， 布 局 也 不 同 ， 每 一 页 的 
条 目 数 量 不 同 ， 即 便 最 后 确实 能 比较 出 来 有 一 种 风格 更 容易 被 人 喜欢 。 
但 是 ， 完 竟 是 由 哪 一 种 或 几 种 因素 “引发 "了 这 种 偶 好 的 表现 不 得 而 知 。 














如 采 一 定 要 得 到 对 应 的 解释 ， 应 在 每 次 方案 比较 时 把 方案 之 间 不 同 
的 地 方 压缩 到 最 少 ， 如 只 有 一 个 方面 不 同 ， 其 他 的 都 相同 。 通 帝 这 样 比 
较 出 来 的 结果 针对 性 会 非常 强 ， 对 形成 自己 完善 的 产品 运营 和 演进 体系 
是 有 好 处 的 。 如 果 担 心 要 验证 的 方面 太 多 会 让 验证 周期 加 长 ， 则 可 以 同 
时 开局 多 个 AB 测 试 的 对 照 组 ， 每 个 对 照 组 进行 独立 的 单一 属性 的 对 
比 ， 这 样 也 能 够 在 一 定 程度 上 缩短 测试 的 周期 。 








3. 强 隔离 


AB 讽 试 还 要 注意 一 个 问题 ， 也 就 是 测试 的 环境 应 该 是 一 种 强 隔 离 
的 环境 ， 因 为 测试 对 象 内 部 与 外 界 如 果 联 系 过 多 会 直接 导致 测试 的 失败 
或 者 根本 无 法 进行 。 





世界 上 很 多 国家 都 是 实行 夏 时 制 的 ， 如 澳大利亚 、 俄 罗斯 以 及 欧盟 
各 国 。 





夏 时 制 指 的 是 一 种 为 节约 能 源 而 人 为 规定 地 方 时 间 的 制度 ， 在 这 一 
制度 实行 期 间 所 采用 的 统一 时 间 称 为 "夏令 时 间 一 一 对 应 的 非 制 度 期 间 
叫做 “冬令 时 间 ”。 一 般 在 天 亮 得 早 的 夏季 人 为 将 时 间 提 前 一 人 小时， 如 把 
RMI: 00 拨 到 8: 00， 然 后 在 5 个 月 后 夏令 时 结束 的 时 候 再 把 表 从 8: 00 

















拨 回 到 9: 00 而 且 是 全 国人 民 都 这 么 做 ， 据 说 这 样 可 以 使 人 早起 早 睡 ， 
减少 照明 量 ， 以 充分 利用 光照 资源 ， 从 而 节约 照明 用 电 。 


我 国 在 1935 年 到 1979 年 间 间 断 地 实行 过 若干 次 夏 时 制 ， 最 近 的 一 次 
是 1986 年 到 1991 年 ， 每 年 的 4 月 到 9 月 这 5 个 月 时 间 实 行 夏 时 制 。 最 后 还 
是 由 于 认为 这 种 制度 得 不 偿 失 而 取消 掉 一 一 不 管 怎么 说 ， 在 这 段 时 间 
里 ， 要 保证 所 有 的 计时 器 时 间 都 同步 变化 这 一 个 小 时 ， 学 校 上 课 、 火 车 
载 客 、 医 院 就 诊 ， 机 构 的 时 钟 要 变 ， 人 的 时 钟 也 要 变 。 最 要 命 的 是 不 少 
人 要 为 这 1 个 小 时 花 一 两 周 来 倒 时 差 。 所 以 权衡 利弊， 在 1991 年 以 后 我 
国 再 也 没有 做 过 夏 时 制 的 调整 。 











按说 这 种 全 国 性 的 新 制度 政 集 应 该 就 像 经 济 特区 或 者 试点 城市 一 样 
做 一 个 试点 性 的 测试 ， 但 是 束 是 真 的 有 人 想 做 恐怕 实行 者 也 会 说 “不 管 
是 城 里 还 是 乡下 这 东西 都 不 会 玩 *”。 这 些 试点 城市 和 外 界 的 一 切 联系 都 
征 要 靠 时 间 来 进行 同步 的 ， 尤 其 是 在 国内 这 么 频 楷 互动 的 环境 ， 这 个 地 
区 和 其 他 地 区 的 交通 时 刻 表 要 做 一 个 1 小 时 的 兰 值 变换 ， 电 视 节 目 转播 
要 做 1 小 时 的 差 值 变换 ， 仆 人 连 打 个 电话 都 要 将 这 边 是 儿 点 那 边 是 几 操 
反复 强调 ， 这 些 同样 是 巨大 的 成 本 。 














4. 其 他 不 民 后 果 


如 果 要 对 产品 用 户 做 大 礼包 赠送 这 种 活动 ， 可 是 不 知道 送 什 么 细 市 
内 容 组 合 让 用 户 更 有 和 殊 着 性 或 更 满意 。 这 种 情况 也 是 可 以 考虑 使 用 AB 





测试 的 。 





准备 两 种 不 同 内 容 的 礼包 ， 然 后 让 用 户 自 己 选 ， 记 得 做 好 登记 工作 
以 及 事后 持续 不 断 的 数据 反馈 工作 ， 这 样 较为 妥 帖 。 





如 果 不 让 用 户 自 己 选择 ， 而 是 进行 随机 性 的 派发 ， 那 么 很 可 能 会 让 
用 户 收 到 自己 不 满意 的 礼包 而 其 实 明明 有 为 外 一 种 礼包 可 能 更 适合 他 却 
没有 派送 给 他 。 这 种 情况 如 果 被 用 户 知 道 ， 轻 则 背地 里 吐 权 说 运营 人 员 
脑子 进 水 ， 重 则 会 引发 用 户 集 体 性 指 袖 而 去 。 反 正 哪 一 种 都 不 是 原先 派 
发 礼包 的 目的 。 而 且 在 大 量 的 目 主 选择 的 过 程 中 也 能 看 出 一 定 的 情趣 取 











如 果 所 做 的 两 种 对 比 礼包 内 容 价值 相差 巧 殊 ， 尤 其 是 非 上 自主 性 选择 
的 情况 下 ， 也 会 引起 用 户 对 公司 厚 此 薄 彼 策略 的 猜测 ， 如 果 公 关 部 门 不 
能 很 好 地 处 理 可 能 有 引发 一 些 群 体 事 件 。 


18.3 ”数据 可 视 化 


数据 可 视 化 是 一 个 一 直 以 来 都 被 数据 运营 人 员 重 视 的 问题 。 做 好 数 
据 可 视 化 ， 关 键 有 以 下 两 点。 


我 在 大 学 毕业 毕业 不 久 的 时 候 ， 由 于 对 职场 工作 感觉 心里 没 底 ， 兽 
经 问 过 一 个 世界 500 强 的 大 型 化 妆 品 跨国 公司 的 大 中 华 区 总 经 理 一 一 好 
在 他 是 我 表姐 夫 ， 不 收 咨询 费 。 我 问 他 ,， “工作 怎么 去 把 控 ， 报 表 怎 么 
做 比较 好 ? HADES LATE, TERI eae SET, BR IN ef 
实 “ 不 明 觉 历 ” 的 感觉 ， 但 今天 回想 起 来 感觉 这 真 的 是 精华 中 的 精华 。 








第 一 ， 一 切 工作 尽量 目标 化 和 数字 化 。 这 个 其 实说 的 就 是 指标 运营 
的 问题 ， 就 算是 公司 没有 指标 ， 自 己 对 自己 有 指标 的 要 求 也 会 让 人 有 激 
励 目 己 进步 的 能 力 。 














第 二 ， 陈 述 简洁 化 。 能 用 图 的 不 要 用 表格 ， 能 用 表格 的 不 要 用 条 
目 ， 能 用 条 目的 不 要 用 段落 。 这 个 其 实说 的 是 可 视 化 的 问题 。 


18.3.1 图 表 


在 运营 中 对 可 视 化 的 重视 不 是 因为 我 们 要 赶 时 艇 ， 喜 欢 喊 口号 ， 而 
是 人 目 映 对 外 界 信息 认 知 本 里 就 有 的 敏感 而 有 的 述 印 。 很 多 东西 与 生 俱 
来 ， 要 让 说 教 使 得 每 个 人 克服 这 种 迟钝 的 难度 很 大 ， 不 如 从 人 认 知 特点 
的 角度 进行 弥补 ， 这 才 是 可 视 化 被 重视 的 根源 一 一 也 就 是 以 人 为 本 。 














言 恩 越 少 ， 人 的 注意 力 越 容 易 集中 ， 反 之 ， 信 息 越 多 ， 人 的 注意 力 
越 不 容易 集中 。 这 才 是 在 报表 上 应 该 着 力 注意 的 问题 。 














人 们 对 图 的 敏感 度 是 比较 高 的 ， 对 形状 和 颜色 的 敏感 度 也 比较 高 。 
所 以 在 数据 可 视 化 中 多 采用 柱状 图 、 折 线 图 、 散 点 图 、 饼 图 、 雷 达 图 、 


柱状 图 如 图 18-4 [1 所 示 。 


折线 图 如 图 18-5 ^! 所 示 。 





柱状 图 和 折线 图 主要 是 用 来 观察 变化 趋势 的 。 


散 点 图 如 图 18-6 3 所 示 。 


EH 其 他 


A 加 视 频 广告 


ZZ 邮件 营销 


Mess [| lux 


直接 访问 





图 18-4 柱状 图 


EEKE 0- 邮件 营销 -e- 联盟 广告 -人 视频 广告 ce EDTA] -全 搜索 引擎 





图 18-5” 拆 线 图 


Anscombe's quartet 





Kl18-6 Bi A 


散 点 图 是 用 来 观察 分 布 密度 的 。 示 例 中 的 散 点 图 看 上 去 像 是 做 回归 
用 的 ， 而 平常 多 见 的 散 点 图 通 毅 是 没有 用 直线 去 穿 点 的 过 程 的 。 





饼 图 如 图 18-7 ^! 所 示 。 


某 站 点 用 户 访 问 来 源 


直接 访问 








ca 直接 访问 
gm 邮件 营销 
mau 
um jp 
ma 25 |% 


邮件 营销 


搜索 引擎 联盟 广告 


视频 广告 


图 18-7 "Off 


饼 图 是 用 来 观察 比例 关系 的 。 


热力 图 如 图 18-8 ^! 所 示 。 


—9: | | | | || || 


12a la 2a 3a 4a 5a 6a 7a 8a 9a 10allal2a lp 2p 3p 4p 5p 6p 7p 8p 9p l0pllp 


图 18-8 ”热力 图 





热力 图 是 用 来 观察 连续 维度 下 的 “热度 "变化 的 ， 是 一 种 特殊 的 散 点 
图 。 


雷达 图 如 图 18-9 所 示 。 


行业 知识 


企业 文化 产品 知识 
—Q SMES 
一 时 一 员工 一 
人 鳃 一 团队 平均 
项 目 管 理 测试 能 力 





基础 理论 


图 18-9 雷达 图 





雷达 图 是 用 来 表示 单个 对 象 多 维度 〈 属 性 ) 分 布 均衡 度 的 。 





还 有 很 多 更 为 丰富 的 图 表 内 容 ， 也 有 一 些 是 这 些 基 本 图 形 图 表 的 变 
晶 是 能 够 掌握 这 些 就 已 经 能 够 在 平时 的 数据 挖掘 和 运营 中 解决 绝 大 


部 分 问题 了 。 


SH 
-HH 
— 


[1] 5| FH Él echarts.baidu.com 网 站 示例 。 
[2] 5| HH Bl echarts.baidu.com 网 站 示例 。 
[3] 5| FH Bl echarts.baidu.com 网 站 示例 。 


[4] 8| FH Blecharts.baidu.com 网 站 示例 。 
[5] 5| FA Él echarts.baidu.com 网 站 示例 。 


18.3.2 XJ 


有 的 数据 内 容 维 度 多 ， 超 过 2 维 的 癌 量 数据 已 不 能 在 A4 纸 上 打印 ， 
而 超过 3 维 的 向 量 数 据 在 计算 机 显示 器 上 也 很 难 表 示 出 来 。 这 种 电 维 度 
的 数据 不 方便 用 图 形 表示 ， 所 以 只 能 退 而 求 其 次 用 表格 来 表示 。 





表格 的 好 处 是 内 容 丰 富 而 且 行列 规整 、 横 平 紧 下 ， 是 一 种 非常 好 的 
结构 化 数据 标本 。 然 而 即便 是 这 样 领导 们 也 是 不 喜欢 看 表格 的 ， 数 字 天 
然 就 没有 颜色 和 形状 对 人 的 视觉 刺激 感 好 。 好 在 一 般 都 是 数据 科学 家 面 
对 大 量 的 多 维 数据 分 析 ， 分 析 成 低 维度 数据 交 给 决策 层 时 已 经 可 以 用 视 
觉 冲 击 良好 的 图 表 来 表现 了 ， 例 如 ， 图 18-10 中 所 示 的 二 维 表格 。 
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图 18-10 ZHR 


最 不 推荐 的 就 是 用 条 目 来 做 描述 ， 如 果 用 ， 也 是 用 于 在 一 个 图 形 或 


者 一 个 表格 之 后 做 补充 说 明 。 





段落 化 的 陈述 最 不 提倡 ， 因 为 人 们 从 这 种 非 结构 化 的 陈述 中 提取 信 
奶 是 时 间 成 本 最 高 的 。 





[1] 图 片 来 源 于 百度 图 库 。 


18.4 & 4E RE — 大 数据 的 灵魂 


18.41 多 大 算 大 








“大 数据 * 这 个 词 本身 具 有 莫大 的 误导 性 ， 再 加 上 行业 里 动 辆 宣传 和 
鼓吹 Google、Facebook 的 机 房 有 多 大 ， 存 量 有 多 大 ， 就 更 容易 让 人 们 认 
为 ， 必 须 数据 量 超 级 大 才 算 大 数据 入 了 门 ， 才 算 “ 大 ”数据 。 认 为 数据 很 
多 才 算 大 才 有 价值 ， 就 好 比 饭 越 多 越 好 吃 ， 音 乐 声音 越 大 才 越 好 听 一 样 
经 不 起 推敲 。 























做 大 数据 的 目的 究竟 是 什么 呢 ? 尤其 是 作为 商业 用 途 来 说 ， 无 非 是 
为 了 多 赚钱 或 者 多 省 钱 ， 不 论 是 直接 的 还 是 间接 的 。 一 旦 脱离 开 这 些 ， 
谁 来 买单 ， 谁 来 背 成 本 ? 大 数据 价值 束 成 了 伪 命 题 。 





Google 和 Facebook 这 样 的 公司 做 大 规模 系统 的 目的 也 不 是 为 了 炫 
富 ， 而 是 他 们 确实 数据 量 膨胀 到 一 定 程 度 了 ， 不 得 不 使 用 一 些 平 时 应 用 
场景 里 不 多 见 的 技术 ， 所 以 “这 些 技术 一 定 是 大 数据 的 必 备 条 件 ” 就 自然 
变 成 了 误导 人 们 的 信息 。 作 为 挑战 尖 病 科技 和 和 中国 这 种 人 口 基数 的 互联 
网 公司 的 客观 需求 ， 研 究 超 大 规模 架构 集群 技术 是 一 个 方 辐 而 且 绝 对 正 
确 ， 但 不 建议 中 小 型 公司 邯郸 学 步 。 














中 小 型 公司 需要 大 数据 吗 ? 答案 是 肯定 的 ， 不 仅 需要 ， 而 且 非 常 需 








要 。 中 小 型 公司 要 用 大 数据 做 什么 ? 这 种 需求 多 少年 来 一 直 没 有 变 过 ， 
还 是 刚刚 说 的 要 么 多 赚钱 要 么 多 省 钱 。 多 赚钱 多 省 钱 的 途径 在 数据 运营 
中 最 第 见 的 束 是 指标 管理 ， 再 有 就 是 诸如 财务 分 析 、 人 和 人力 成 本 分 析 、 工 
作 效 率 及 成 果 分 析 等 。 这 些 东 西 在 日 第 生产 生活 中 占 了 绝 大 多 数 的 数据 
应 用 场景 。 对 这 些 对 象 研究 明白 了 就 已 经 能 解决 大 部 分 运营 问题 了。 




















如 末 还 想 做 得 深入 一 些 怎 么 办 ?再 把 参考 维度 的 数据 增多 束 可 以 
了 ， 如 刚刚 这 些 数 据 指标 是 否 和 气候 变化 有 关 ? 是 否 和 地 理 位 置 有 关 ? 

人 否 和 大 气 污染 程度 有 关 ? 是 售 跟 当前 热 播 的 电视 剧 有 关 ? 是 人 否 跟 短 时 
闻 内 网 上 的 一 个 热 词 有 关 ? 和 是否 跟 交 通 状况 有 关 ? 是 否 跟 人 们 使 用 的 上 
网 设备 有 关 等 。 这 些 数据 的 引入 不 需要 做 得 非常 多 ， 只 要 相互 结合 有 效 
且 丰 富 适 度 ， 束 可 以 挖掘 。 甚 至 指标 自身 前 后 是 否 彼 此 有 影响 规律 ， 也 
是 一 个 值得 研究 的 课题 。 




















18.4.2 ”大 数据 网 络 


大 数据 很 重要 ， 无 其 是 从 国家 眠 略 的 高 度 来 看 这 个 问题 束 更 是 如 
此 。 国 家 要 做 决策 需要 很 多 事实 作为 依据 ， 尤 其 需要 大 量 的 数据 作为 参 
考 。 数 据 的 获取 有 很 多 途径 ， 而 成 本 最 高 的 也 许 砚 过 于 派出 专门 的 调 碍 
小 组 去 做 访谈 和 总 结 了 。 这 种 方式 缺点 显而易见 一 一 时 间 周 期 长 ， 人 工 
成 本 蜗 ， 协 调 工作 难度 大 。 其 实 根 本 没有 必要 派出 很 多 调查 小 组 去 调 伍 
能 从 大 数据 网 络 中 得 到 的 信息 ， 正 所 请 “一 叶 知 秋 ”1|。 

















从 厂 泛 部 署 的 物 联网 来 看 ， 很 多 以 前 不 可 想象 的 问题 到 现在 已 经 逐 
步 得 到 了 解决 。 


想 知 道 一 个 地 区 繁荣 程度 如 何 ? 最 简单 的 就 看 用 电 和 用 水 就 可 以 
了 ， 带 有 远程 抄 表 功 能 的 智能 电表 、 水 表 可 以 进行 实时 数据 归 集 ， 每 天 
都 能 看 到 数字 的 变化 。 做 做 同比 、 环 比 就 知道 这 个 地 区 的 电器 和 人 口 活 
跃 程度 有 没有 变化 ， 不 管 是 常 驻 的 还 是 流动 的 ， 而 且 还 能 区 分 是 民用 水 
电 的 增加 还 是 工业 水 电 的 增加 。 








想 知道 一 个 地 区 交通 状况 如 何 ? 看 看 那些 高 速 公 路 和 国道 、 省 让 上 
的 测速 摄像 头 记 录 就 能 知道 。 什 么 时 间 ， 和 车 流通 过 多 少 ， 和 车速 如 何 ， 就 
能 够 从 一 定 程 度 反 映 出 交通 的 情况 ， 是 人 迹 宏 灾 还 是 车 水 马龙 ， 是 风 驰 
电学 还 是 拥 墙 不堪。 如 采 做 路 段 改 造 ， 成 果 也 能 从 这 些 数 据 里 直接 得 到 








体现 ， 而 且 都 是 立竿见影 。 








想 知道 一 个 地 区 的 水 文 信息 、 气 候 信 息 ， 也 没 问题 ， 传 感 网 络 可 以 
人 裔 及 到 每 个 人 迹 罕 至 的 地 方 ， 不 害 是 江河 湖 海 还 是 沙漠 沼 泽 ， 无 人 值守 
的 传感器 可 以 为 人 们 代 殉 数据 收集 和 上 报 的 工作 。 








总 而 言 之 ， 这 些 原本 需要 大 量 花费 人 力 物力 才能 进行 收集 和 统计 的 
数据 ， 做 起 来 已 经 越 来 越 轻松 一 一 在 这 背后 是 大 数据 中 心 的 功劳 。 这 样 
的 工作 量 在 大 数据 时 代 到 来 之 前 古 根本 没 办 法 想象 的 。 

















一 个 一 个 独立 的 大 数据 中 心 能 够 在 茶 一 个 分 领域 或 者 一 个 地 区 做 到 
数据 收集 ， 数 据 存 储 ， 数 据 分 析 ， 但 这 还 不 是 数据 的 终极 价值 。 因 为 人 
类 社会 客观 上 来 说 是 广泛 联系 的 ， 这 种 联系 既然 存在 于 人 与 人 、 人 与 
物 、 物 与 物 之 间 ， 那 必定 能 够 体现 于 广泛 联系 的 数据 之 中 。 因 此 ， 一 个 
孤立 的 大 数据 中 心 建 得 再 好 也 是 无 法 从 割裂 的 数据 去 诠释 全 局 的 数据 全 
貌 的 。 如 果 想 要 了 解 这 种 广泛 的 联系 ， 那 必定 会 产生 广泛 的 数据 交换 的 
需求 ， 这 就 是 大 数据 网 络 一 一 由 大 数据 中 心 彼此 连接 形成 的 数据 交换 网 
络 。 





[1] 《淮南 子 : 说 山 训 》: 见 一 叶 落 而 知 岁 之 将 壮 。 


18.4.3 ”去 中 心 化 才能 活跃 





大 数据 中 心 之 间 之 所 以 会 形成 网 络 ， 不 是 因为 有 人 以 强制 手段 命令 
它 成 为 这 种 样子 ， 同 样 是 自然 形成 的 一 一 以 自然 形成 的 东西 其 背后 的 力 
量 束 是 自然 (这 里 的 自然 不 是 说 的 山川 湖泊 花鸟 鱼 虫 的 这 种 保护 自然 环 
境 的 上 自然) 的 力量 ,自然 的 力量 远 比 人 类 的 力量 涪 汶 与 不 可 逆转 。 


人 类 在 世界 各 地 的 大 陆 和 岛屿 上 广泛 分 散 存 在 而 不 是 集中 存在 ， 即 
便 是 集中 聚居 在 城市 之 中 ， 城 市 的 规模 也 是 有 限 的 ， 要 想 在 更 大 规模 内 
形成 交互 和 协作 ， 城 市 和 城市 之 间 就 要 建立 联系 。 容 易 让 肉眼 看 到 的 东 
西 如 高 速 公 路 、 电 话 线 绕 、 光 纤 网 络 、 飞 机 航线 等， 这 些 都 是 联系 的 方 
The ST AS ETA IAS A OI, WT IL a Ae A ee 
说 到 实质 还 是 由 于 资源 ， 也 就 是 人 口 和 支持 人 口 的 一 切 生 存 必需 物质 是 
人 否 文 持 其 膨胀 。 当 城市 膨胀 到 一 定 程度 时 必然 会 引发 极 多 的 “大 城市 
病 ”， 如 就 医 难 、 上 学 难 、 出 行 难 .…… 说 来 说 去 还 都 是 资源 分 配 不 足 的 
问题 ， 这 些 问 题 势必 对 城市 扩张 形成 阻碍 。 











大 数据 产业 的 发 展会 遇 到 完全 一 样 的 问题 ， 数 据 资 源 的 集中 必然 会 
市 来 交换 速度 加 快 、 备 份 方便 、 计 算 方 便 等 多 种 便利 ， 而 同时 也 会 提高 
大 数据 中 心 建设 的 难度 。 人 工 成 本 、 电 力 成 本 、 管 理 成 本 、 灾 备 硬件 成 
本 ， 这 些 都 在 给 资本 输入 行业 抬 高 门槛 。 而 这 种 牵 一 发 而 动 全 身 的 庞大 


结构 也 让 每 一 次 技术 演进 、 技 术 决 倘 、 方 案 调 整 如 履 薄 冰 。 资 源 越 集中 
对 于 资源 调度 的 难度 其 实 束 越 大 ， 这 个 和 人 类 本 里 的 认 知 和 掌控 能 力 有 
Ko 


大 数据 产业 里 任何 一 个 环节 的 发 展 思 路 都 应 该 以 去 中 心 化 为 原则 ， 
而 不 应 直 奔 “大 而 全 ”的 目标 。 这 个 原理 就 像 做 这 样 的 选择 一 样 : 是 在 中 
国 建立 一 个 大 城市 还 是 几 百 个 分 散 的 小 城市 ， 是 建立 一 个 特别 大 的 超市 
还 是 大 干 个 分 散 的 小 超市 ， 是 建 一 个 特别 大 的 办 事 处 还 是 分 散 的 小 办 事 
处 。 哪 种 更 有 好 的 操作 性 ， 哪 种 更 容易 帮助 资源 得 到 合理 分 配 ， 哪 种 方 
式 就 应 该 是 首选 。 








去 卸 中 心 的 本 身 不 是 目的 ， 去 掉 中 心 是 为 了 发 展 更 为 迅速 。 为 此 同 
样 还 要 让 各 个 分 散 的 大 数据 中 心 以 及 各 个 生产 环节 建立 连接 ， 尤 其 是 帮 
助 数据 在 逻辑 层面 建立 连接 ， 让 它们 的 维度 扩展 和 丰富 起 来 。 





18.4.4 数据 会 过 剩 吗 





数据 作为 一 种 产品 ， 它 的 生产 会 过 剩 吗 ? 先 说 说 商品 为 什么 会 过 剩 





从 书本 上 学 到 的 商品 过 剩 的 概念 也 好 ， 还 是 在 平时 的 生活 中 磁 到 的 
商品 过 多 而 产生 的 大 甩卖 也 好 ， 是 一 种 供 大 于 求 的 现象 。 换 句 话 说 ， 生 
产 了 大 量 的 超过 市 场 消 化 能 力 的 产品 ， 就 是 过 剩 。 





过 剩 很 可 但。 狠 食 生产 过 剩 ， 粮 贱 伤 农 ， 农 民 知 不 堪 言 ， 成 衣 生 产 
过 剩 ， 也 就 只 能 低 价 甩卖 ， 甚 至 是 没有 最 低 只 有 更 低 一 一 我 国 在 20 世 纪 
80 年 代 初 到 90 年 代 中 后 期 在 全 国 各 地 持续 的 * 限 产 压 锭 的 过 程 中 已 经 吃 
过 了 纺织 品 生产 过 剩 的 否 头 。 大 量 的 工人 下 岗 、 转 产 ， 纺 织 三 也 是 并 转 

















想 想 看 ， 数 据 会 不 会 有 一 天 生产 过 剩 ， 以 至 于 大 家 都 廉价 去 售卖 数 
气 甚 至 不 要 钱 让 别人 来 用 目 己 的 数据 呢 ? 








即便 是 在 有 知识 产权 保护 的 前 提 下 ， 有 一 点 也 是 可 以 上 有 定 的 ， 那 囊 
是 同 质 的 数据 是 有 可 能 “过 剩 * 的 。 如 果 大 家 都 售卖 的 是 完全 一 样 的 数 
据 ， 连 质量 也 完全 一 样 ， 那 么 这 种 数据 必然 会 产生 供过于求 的 情况 一 一 
两 个 完全 一 样 的 物品 (服务 ) 那 就 只 能 比 谁 更 便宜 。 这 种 情况 下 ， 数 据 








生产 商 其 实 就 退 变 成 中 介 了 ， 而 且 还 不 是 高 档 的 中 介 ， 这 不 是 大 数据 产 
业 核 心 的 意义 所 在 。 


但 是 数据 的 生产 有 一 个 天 然 的 上 限 ， 可 以 说 出 这 个 上 限 在 哪里 ， 但 
古 怎 么 也 不 可 能 措 到 它 ， 这 个 上 限 束 是 “世界 乃至 宇宙 友 生 所 有 行为 综 
尔 同意 不 同意 。 








世界 上 的 万 事 万 物 都 是 运动 的 ， 每 一 刻 ， 每 一 个 行为 都 是 可 以 进行 
量化 的 客观 记录 的 ， 这 些 记录 将 形成 一 个 无 穷 大 的 数据 样本 空间 ， 连 维 
度 都 是 无 卷 大 的 ， 大 到 无 法 记录 全 貌 。 现 在 这 一 刻 虽然 意识 到 大 数据 世 
界 的 重要 ， 但 是 仅仅 是 在 整个 大 数据 空间 的 奇 点 上 ， 真 正 的 大 数据 市 场 
还 远 远 没有 开始 ， 还 有 大 量 的 数据 根本 没有 记录 甚至 有 很 多 有 价值 的 数 
据 还 没 被 人 们 认识 到 是 数据 。 














这 些 还 没 补 认识 到 的 数据 同样 会 受到 供需 的 影响 ， 绥 组 地 、 逐 步 地 
纳入 人 类 的 数据 研究 视线 ， 这 只 是 时 间 和 性 价 比 的 问题 而 已 。 所 以 从 这 
个 角度 来 说 ， 数 据 的 生产 会 过 剩 吗 ? 应 该 说 ， 不 会 ， 而 且 永 远 不 会 。 


18.5 ”数据 变现 的 场景 


最 后 来 说 说 数据 变现 的 问题 。 





我 们 的 信息 本 身 就 是 一 种 财产 ， 我 们 的 手机 号 、 年 龄 、 喘 份 证 号 、 
只 业 、 年 收入 水 平 、 购 房 与 否 、 购 车 与 否 、 婚 否 、 育 否 .…... 这 些 信息 已 
AREFE 了。 这些 信 息 已 经 能 够 让 那些 商家 愿意 花 一 大 笔 钱 来 购买 ， 然 
TEAS, FRB ALA”, 推销 各 种 “高 需求 产品 "。 这 些 商家 目 
然 是 获得 了 好 处 ， 但 是 人 们 的 隐私 却 被 冒犯 了 。 原 因 无 非 是 茶 些 机 构 在 
登记 了 人 们 的 信息 以 后 转手 卖 给 了 这 些 丙 家 ， 这 是 一 种 表现 最 为 赤裸 的 
数据 变现 。 























想 想 看 ， 商 家 买 这 些 数据 的 目的 是 什么 昵 ?应 该 是 为 了 帮助 他 改进 
业务 。 为 什么 能 够 帮助 他 改进 业务 呢 ? 因为 他 一 旦 有 了 这 些 数据 就 能 不 
要 大 海 扬 针 式 地 再 去 逐个 给 所 有 手机 号 打 电 话 了 ， 节 约 时 间 ， 市 约 人 
力 成 本 ， 这 才 是 他 愿意 为 这 些 数 据 买 单 的 最 根本 的 原因 。 有 些 数 据 你 可 
能 日 给 他 他 都 没 兴趣 ， 因 为 拿 厦 没 用 ， 不 能 赚钱 也 不 能 省 钱 。 








我 们 把 例子 举 透 彻 一 些 吧 。 


如 果 这 种 骚扰 电话 使 用 大 海 捞 针 的 方式 ， 假 设 需要 打 10000 通 才能 
成 交 1 笔 ， 被 加 9999 次 。 那 么 在 获取 了 这 份 名单 之 后 ， 也 许 只 需要 拨打 
1000 通 就 能 成 交 1 笔 ， 被 加 999 次 ， 产 能 提高 90%。 如 果 加 之 有 人 预先 对 
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之 ， 假 设 原来 要 雇佣 100 个 人 来 打 这 10000 通 电话 ， 现 在 只 需要 雇用 1 个 
人 就 够 了 。 那 99 个 人 就 是 节约 下 来 的 人 力 ， 就 是 用 蒸汽 机 驱动 的 纺 纱 机 
代替 纺织 女工 的 过 程 。 





18.5.1. 数据 价值 的 衡量 的 讨论 


1. 交 换 价值 

前 面 反 复 提 人 到， 大 数据 产业 的 价值 在 于 “洞悉 世界 ”一 一 消除 不 确 
定 ， 变 不 定 为 肯定 。 在 这 个 消除 不 确定 的 过 程 中 ， 大 数据 解放 了 大 量 的 
生产 力 ， 这 是 大 数据 产业 从 经 济 学 和 社会 学 层面 体现 出 来 的 意义 。 








说 到 这 里 ， 可 以 考虑 尝试 着 用 公式 性 的 方式 描述 一 下 数据 的 价值 。 


在 《资本 论 》 里 有 这 样 的 论述 ， 马 克 思 说 :“ 作 为 价值 ， 一 切 商 品 
都 只 是 一 定量 的 凝固 的 劳动 时 间 趾 。” 随 着 市 场 经 济 的 逐步 繁荣 ，《 资 
本 论 》 的 论述 或 许 会 有 些 单纯 ， 或 者 有 一 定 的 局 限 性 。 那 么 就 按照 市 场 
经 济 的 观点 来 做 一 个 调整 性 的 解释 一 一 商品 真实 的 成 交 价 是 一 个 更 容易 
被 人 认可 的 价值 体现 。 

















数据 如 果 要 变现 ， 目 然 有 成 交 价 ， 这 个 成 交 价 就 是 数据 目 身 的 “ 交 
换 价 值 ”。 还 是 用 《资本 论 》 里 熟悉 的 名 词 来 类 比 。 一 个 人 为 了 了 解 和 
消除 不 确定 性 购买 数据 ， 而 为 此 付出 金钱 代价 ， 这 个 成 交 价 就 是 它 的 区 
换 价值 。 即 便 数 据 一 样 ， 成 交 价 也 可 能 因 人 而 异 ， 这 就 像 平 时 在 市 场 上 
看 到 的 现象 那样 ， 一 样 的 工业 品 ， 如 键盘 、 鼠 标 、U 盘 这 些 最 常见 的 东 
西 ， 即 便 是 完全 没有 差异 的 鼠标 ， 也 会 由 于 当时 的 供需 造成 价格 的 该 








动 ， 那 这 个 时 刻 的 交换 价值 实际 也 是 在 波动 的 ， 这 种 现象 同样 存在 于 数 
据 交 易 中 。 


2. 作 用 价值 


数据 的 获取 为 人 们 消除 不 确定 性 。 那 么 通过 其 他 途径 消除 这 种 不 确 
定性 的 成 本 就 是 数据 为 人 们 蔡 代 下 来 的 ， 就 是 数据 发 挥 的 作用 ， 所 
以 “通过 其 他 途径 消除 这 种 不 确定 性 的 成 本 ?应 该 被 称 为 这 卢 数 据 的 作用 
价值 一 一 这 更 像 是 一 种 成 本 估算 。 如 果 没 有 数据 会 怎么 样 ? 目 己 杀 目 去 
做 访谈 了 解 ， 听 新 闻 ， 碍 看 各 种 其 他 方面 的 资料 ， 这 是 要 消耗 大 量 成 本 
的 。 但 是 ， 即 便 在 没有 任何 途径 消除 这 种 不 确定 性 的 时 候 ， 作 用 价值 应 
该 也 不 会 无 穷 大 ， 因 为 根据 自己 经 验 、 推 测 等 手段 ， 还 是 会 对 这 个 得 了 
解 的 数据 的 “真实 值 " 有 一 个 “逼近 ”的 过 程 。 所 以 作用 价值 几乎 永远 是 
个 有 限 值 。 




















3. 使 用 价值 


而 用 什么 来 类 比 数据 的 “使 用 价值 ? 呢 ? 可 以 用 获取 了 这 些 数据 后 所 
消除 的 不 确定 性 的 大 小 来 衡量 ， 也 就 是 用 数据 的 信息 箭 来 衡量 。 使 用 价 
值 永远 是 小 于 等 于 作用 价值 的 。 





4 场景 价值 





而 到 了 这 一 步 ， 还 需要 有 一 种 概念 出 现 ， 就 是 “场景 价值 ”一 一 在 相 
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完全 相同 的 数据 在 不 同 的 场景 下 也 是 有 不 同 的 “场景 价值 "的 。 这 个 场景 
价值 应 该 是 信息 在 场景 中 带 来 的 收益 ， 这 个 收 荔 就 是 两 种 状态 的 成 本 差 
， 就 拿 刚 才 的 那个 骚扰 电话 的 场景 来 看 ， 买 一 个 普通 的 画像 清单 ， 
够 减少 90% 的 人 工 投入 ， 那 么 减 去 的 90% 的 人 工 成 本 用 具体 金钱 衡量 出 
来 的 数字 就 是 场景 价值 ， 买 一 个 优化 过 的 画像 清单 ， 能 够 减少 99% 的 人 
工 投入 ， 那 么 减 去 的 99% 的 人 工 成 本 用 具体 金钱 衡量 出 来 的 数字 就 是 场 
景 价值 。 














可 以 认为 : 如 果 要 让 数据 交易 成 为 一 个 产业 ， 必 须 使 得 : 


场景 价值 之 作用 价值 之 使 用 价值 之 交换 价值 





如 打数 据 的 场景 价值 大 于 交换 价值 ， 数 据 的 买卖 就 会 成 区 ， 这 个 价 
值 之 兰 越 大 成 交 的 可 能 性 越 大 ， 而 这 类 数据 就 具有 升值 空间 。 








常 其 他 商品 交易 的 场景 里 也 有 类 似 的 场景 ， 一 个 地 方 的 房价 现在 
是 5000 元 一 平方 米 ， 周 边 相 对 还 比较 苑 头 ， 去 购物 ， 去 看 病 ， 去 上 学 ， 
在 这 里 生活 附加 的 成 本 尤其 是 时 间 成 本 还 相当 高 ， 所 以 这 个 5000 元 一 平 
方 米 基 本 只 有 一 个 居住 价值 。 但 是 根据 规划 ， 以 后 5 年 这 里 周边 会 陆续 
新 建 地 铁 、 购 物 中 心 、 中 小 学 校 、 三 甲 医院 。 这 些 附加 的 成 本 会 随 着 这 
些 设 施 的 建立 逐渐 降低 ， 而 转移 到 楼 盘 的 价格 上 去 ， 这 个 价格 会 一 直上 
涨 ， 上 涨 的 上 限 应 该 是 与 其 他 地 方 楼 盘 提 供 的 同 质 资 源 附 加 价值 总 和 持 








平一 一 包括 居住 价值 在 内 的 一 切 相关 资源 。 这 时 候 楼 盘 再 上 涨 已 经 没有 
意义 ， 即 便 喊 价 上 涨 ， 但 是 买 家 已 经 能 够 在 其 他 比 这 个 地 方 低 价 的 地 区 
化 更 少 的 钱 买 到 同 质 的 资源 ， 那 这 个 喊 价 十 有 八 九 不 成 交 ， 惑 是 所 谓 的 
有 价 无 市 。 





数据 的 场景 价值 也 是 这 样 ， 由 于 数据 里 强 仿 的 信息 对 场景 中 消除 不 
确定 性 有 帮助 ， 进 而 带 来 的 收益 就 是 数据 的 价值 ， 那 就 相当 于 是 一 种 投 
资 。 投 资 回 报 高 吏 会 吸引 人 ， 反 之 回报 低 就 不 吸引 人 。 这 个 回报 是 数据 
中 的 信息 带 来 的 收益 的 价值 ， 也 就 是 回报 和 交换 价值 的 差 值 ， 这 个 差 值 
越 大 就 说 明 投资 收益 率 越 高 ， 越 吸引 人 ， 反 之 就 越 小 ， 越 容易 被 资本 抛 


弃 。 





5. 示 例 分 析 


刚才 有 一 个 问题 没 说 完 ， 就 是 关于 “使 用 价值 ?的 问题 。 这 应 该 是 一 
个 数据 中 强 含 信息 所 有 友 挥 价值 的 度量 问题 。 


在 平时 生产 生活 中 ， 人 们 的 行为 实际 是 已 经 计 入 了 先 验 概率 的 。 而 
使 用 数据 中 的 信息 这 种 行为 ， 实 际 是 在 享受 其 信息 量 获得 的 增益 。 在 平 
时 的 生产 生活 中 ， 即 便 在 没有 购买 任何 数据 的 情况 下 ， 也 会 根据 当前 具 
有 的 认 知 、 经 验 、 推 理 、 猜 测 ， 使 用 所 有 能 用 的 手段 来 消灭 不 确定 性 。 
这 个 时 候 必 然 不 是 像 无 头 苑 晶 一 样 盲 目 去 试 ， 穷 举 地 去 试 ， 在 前 面 说 的 
骚扰 电话 的 例子 里 就 是 一 个 电话 号 码 不 落地 逐个 打 过 去 的 情况 。 而 根据 











很 多 辅助 性 的 信息 或 者 其 他 的 数据 信息 已 经 能 够 在 购买 或 阅读 一 片 数 据 
之 前 拥有 了 一 定 的 消除 不 确定 性 的 能 力 ， 这 个 其 实 就 是 先 验 概率 及 挥 的 
作用 。 而 在 购买 或 阅读 了 数据 之 后 ， 进 一 步 消除 了 不 确定 性 ， 这 其 实 是 
一 个 和 概率 有 关 的 事情 ， 很 容易 联想 到 信息 量 或 烂 的 概念 : 








H(x)- oe i p(x,) log, P(x,) (i-1, 2, +n) 
i=l 
在 计算 使 用 价值 时 可 以 考虑 用 以 下 公式 : 
H(x)=-> p(x,)log,, P(x,) (i=1, 2, =n) 
i=] 


其 中 m 古 信 源 数量 。 


在 m 个 信 源 是 等 概率 的 情况 下 ，H GO 的 最 大 值 为 1， 也 就 是 
1009%6。 可 以 认为 这 种 情况 下 数据 的 使 用 发 挥 了 巨大 的 价值 ;前面 同样 
也 计算 过 燃 在 先 验 概率 分 布 极 不 平衡 时 是 比较 小 的 。 信 息 燃 在 这 种 情况 
下 取 值 在 0~1 之 间 。 





不 妨 把 数据 使 用 价值 定义 为 
使 用 价值 = 作用 价值 -交换 价值 〉x 信 息 焕 


从 定性 分 析 的 角度 来 看 ， 作 用 价值 越 大 ， 交 换 价值 越 小 ， 那 么 数据 
使 用 价值 就 越 大 ， 而 在 信息 灶 越 大 的 情况 下 ， 这 个 数据 的 使 用 价值 越 不 


打折 扣 ， 反 之 数据 的 使 用 价值 就 比较 小 。 如 果 作 用 价值 和 交换 价值 很 贴 
近 ， 那 数据 使 用 价值 的 空间 就 非常 有 限 了 ， 这 种 时 候 即 便 信息 炳 是 

1 (最 大 值 ) ， 这 种 数据 发 挥 的 作用 也 就 越 小 ， 因 为 与 穷 举 试 错 的 成 本 
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例如 ， 张 三 准备 在 一 个 城市 开 一 个 小 卖 店 ， 但 是 卖 什么 没 拿 准 。 他 
在 多 方 了 解 下 ， 想 了 以 下 4 种 方案 。 


方案 1: 在 A 街区 B 店 面 开 一 个 前 人 饼 店 。 


方案 2: 在 C 街 区 D 店 面 开 一 个 茶 餐 厅 。 


方案 3: 在 C 街 区 D 店 面 开 一 个 便利 店 。 


方案 4: 开 一 个 专营 咖啡 机 和 咖啡 豆 的 网 店 。 





这 4 种 方案 看 起 来 几乎 差不多 ， 如 果 自 己 要 去 各 个 街区 进行 调查 ， 
包括 网 络 调查 人 流量 、 客 户 性 别 比例 、 年 龄 比例 、 日 均 消 费 等 数据 ， 一 
个 人 花费 的 人 工 成 本 、 交 通 、 饮 食 都 加 在 一 起 需要 40000 元 。 而 有 专业 
的 公司 拥有 大 数据 咨询 报告 系统 ， 可 以 提供 完备 的 信息 ， 而 购买 这 种 报 
告 仅 需 5000 元 一 份 。 那 么 张 三 完 全 可 以 花 5000 元 来 购买 这 份 报告 ， 这 个 
5000 元 就 是 交换 价值 ，40000 元 就 是 作用 价值 。 这 4 个 方案 如 末 没 有 明显 
的 彼此 之 间 的 差异 ， 张 三 原本 选择 每 个 方案 的 概率 都 是 /4， 那 么 按照 
HOT UWE EL, de bU 
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数据 的 使 用 价值 就 是 : (40000-5000) x1=35000 元 。 
再 举 一 个 例子 。 


假如 有 这 么 一 个 场景 ， 某 公司 制定 第 二 年 的 产品 策略 和 销售 计划 ， 

随后 几 个 主管 提出 了 3 种 不 同 的 方案 。 而 且 3 种 方案 听 起 来 都 比较 有 道理 
但 是 缺乏 足够 的 数据 依据 ， 经 过 大 家 充分 讨论 ， 权 衡 利 次 ， 在 决策 层 的 
领导 内 进行 了 支持 表决 。 同 意 选 择 方案 1 的 有 70% 的 人 ， 同 意 选择 方案 2 
的 有 20% 的 人 ， 同 意 选择 方案 3 的 有 10% 的 人 。 可 以 粗略 理解 : 其 中 有 

70% 的 人 可 能 会 选择 方案 1，20% 的 人 可 能 会 选择 方案 2，10% 的 人 可 能 
会 选择 方案 3。 这 时 候 需 要 数据 对 决策 做 出 支持 。 假 设 自己 进行 调查 研 
究 需 要 花费 的 总 成 本 为 100 万 ， 从 拥有 大 数据 咨询 报告 系统 的 公司 购买 
了 相应 的 数据 ， 花 费 20 万 ， 做 出 了 最 终 决 策 ， 选 择 了 方案 3。 最 终 公司 
第 二 年 销售 收益 为 1000 万 。 








在 这 个 例子 里 面 ，20 万 为 交换 价值 ， 作 用 价值 应 该 是 100 万 ， 场 景 
价值 是 80 万 ， 数 据 的 价值 边界 应 该 划 在 消除 信息 不 确定 的 成 本 上 ， 而 不 
是 间接 收益 。 男 外 ， 可 能 比较 有 和 争议 的 地 方 是 在 选择 了 支持 度 最 低 的 方 
案 3 上 ， 表 面 上 看 上 去 ， 数 据 的 购 入 文 持 了 最 不 可 能 胜出 的 方案 3， 上 所 以 
这 次 胜出 很 大 程度 应 该 归功 于 这 一 片 数据 的 价值 ， 应 该 用 这 个 1000 万 做 
基数 来 进行 衡量 。 我 的 看 法 是 ， 这 是 对 数据 价值 的 伟大 ， 也 是 不 客观 的 








一 种 表现 。 因 为 这 1000 万 真 的 不 是 因为 花 了 20 万 就 直接 得 到 的 ， 而 实际 
的 过 程 是 ， 仪 仅 花 了 20 万 ， 完 成 了 一 个 100 万 的 成 本 才能 做 的 事情 ， 在 
决 倘 后 进而 通过 一 系列 其 他 的 努力 和 配合 ， 最 终 达 成 了 1000 万 的 价值 。 
边界 的 划分 很 重要 。 或 许 还 有 一 个 疑问 ， 就 是 3 种 方案 中 ， 数 据 的 帮助 
使 得 这 个 10% 文 持 度 的 方案 胜出 ， 而 非 最 大 支持 度 的 70% 的 方案 胜出 ， 

所 以 有 两 种 情况 可 能 会 被 认为 是 不 同 的 ， 那 就 是 用 户 选 择 了 70% 文 持 度 
的 方案 1 和 109% 文 持 度 的 方案 3， 这 两 种 情况 下 数据 的 使 用 价值 肯定 是 不 
一 样 的 。 但 是 ， 决 俩 实际 上 是 在 了 解 了 信息 之 后 做 出 的 ， 换 句 话 说 ， 如 
果真 的 花 了 100 万 的 人 工 成 本 去 做 了 这 次 同 质 的 分 析 ， 应 该 会 得 到 跟 购 
买 这 次 数据 一 样 的 结果 ， 买 数据 花 了 20 万 。 这 里 数据 的 价值 只 是 两 种 获 
得 途径 的 比较 ， 也 就 是 大 数据 市 场 边界 的 划分 。 











最 后 试 着 把 事情 做 到 极致 一 一 试 算 一 下 在 刚才 的 又 扰 电话 的 例子 
里 ， 从 10000 条 数据 中 锁定 100 条 数据 ， 带 来 的 交换 价值 有 多 大 呢 ? 这 个 
场景 很 特殊 ， 因 为 打 这 10000 通 电话 本 号 就 是 一 个 消除 不 确定 性 的 过 
程 ， 等 于 是 消除 不 确定 性 和 生产 融 为 一 体 的 ， 在 这 种 情况 下 ， 数 据 的 场 
景 价值 和 作用 价值 几乎 快 等 价 了 。 











假设 平均 一 次 通话 时 间 需 要 3 分 钟 ， 包 括 接听 、 通 话 、 挂 机 ， 包 括 
成 交 和 被 加 的 不 同 场 景 。 那 么 一 小 时 可 以 通话 20 通 ， 一 天 8 小 时 通话 160 
通 。10000 通 电话 需要 一 个 人 62.5 个 工作 日 才能 完成 ， 大 约 3 个 人 1 个 月 
的 时 间 。 假 设 话务员 的 人 工 成 本 为 4000 元 一 个 月 ， 那 就 需要 12000 元 的 





成 本 ， 这 个 就 是 作用 价值 。 用 网 上 找到 的 一 条 报道 来 试 着 给 数据 定 个 售 
fr. “信用 卡 客户 信息 遭 泄 : 网 购 价 2 分 一 条 ， 金 卡 持 卡 人 信息 可 售 5 
元 。 多 位 “信息 贩子 ' 均 表示 ， 根 据 个 人 信息 ‘品质 ;的 不 同 ， 价 格 也 分 
为 ‘三 六 九 等 "， 最 新 信用 卡 开户 数据 按照 0.5 元 一 条 出 售 ， 二 手数 据 可 以 
便宜 到 0.35 元 每 条 ; 部 分 高 端 客户 如 金 卡 、 白 金 卡 持 卡 人 信息 每 条 售 价 
则 高 达 5 元 7! 。” 假 设 1 条 0.5 元 ， 在 花费 了 50 元 购买 了 100 条 电话 记录 
后 ， 仅 需要 1 个 人 0.6 天 的 时 间 ， 也 就 是 大 约 190 元 的 成 本 ， 就 能 完成 原 
来 12000 元 成 本 才能 做 完 的 事情 。 由 于 这 种 场景 下 的 作用 价值 巨大 ， 使 
用 价值 和 场景 价值 都 巨大 ， 所 以 在 这 个 场景 下 数据 交易 才 会 大 行 其 道 
屡禁不止 。 





























除了 这 些 未 来 会 很 有 市 场 的 例子 外 ， 还 有 哪些 是 现 阶段 束 可 以 开始 
发 挥 价值 的 数据 呢 ? 





[来 源 于 《资本 论 》 第 一 卷 ， 第 53 页 。 
2] 来 源 于 《每 日 经 济 新 闻 》。 


18.5.2 ”场景 1: 征 信 数据 











征 信和 数据 这 个 东西 其 实 还 是 很 敏感 的 ， 很 多 人 认为 这 个 是 隐私 。 


隐私 应 该 说 是 一 种 文明 进步 的 产物 ， 但 是 也 确实 是 一 把 及 其 锋利 的 
双 刃 人 环 。 先 看 这 样 一 则 报道 。 





“日 前 ， 稀 里 糊涂 染 上 了 艾滋 病 的 河南 小 伙 小 新 成 了 与 论 关注 的 焦 
点 。 去 年 3 月 ， 他 和 女友 小 叶 筹 备 婚事 ， 两 人 在 民政 局 办 理 婚姻 登记 当 
天 ， 前 往 永 城市 妇幼 保健 院 进 行 婚检 。 检 查 报 告 很 快 出 来 ， 但 医生 单 
独 叫 住 了 女友 小 叶 。 小 叶 再 次 做 完了 检查 后 ， 小 新 得 到 医生 的 答复 是 ， 
一 切 正常 。 婚 检 后 小 新 也 没 再 多 想 什 么 ， 束 与 妻子 小 叶 同 了 房 。 一 个 月 
后 ， 小 新 前 往外 地 打工 ， 然 而 6 月 初 ， 小 叶 接 到 永 城市 疾 控 中 心 打 来 的 
电话 ， 称 她 已 经 确诊 为 HIV 阳 性 。 丈 夫 小 新 这 才 知 道 ， 当 时 小 叶 被 医生 
叫 住 是 因为 被 查 出 疑似 HIV 阳 性 。 不 幸 的 是 ， 小 新 随后 也 被 查 出 感染 了 


艾滋 病毒 。 














令 人 小 新 不 解 的 是 ，3 月 份 婚检 时 ， 小 叶 已 经 碍 出 疑似 感染 艾滋 病 
毒 ， 为 什么 医院 当时 不 把 这 个 结 末 告 知 目 己 ， 导 致 亚 剧 无 法 挽回 ? 在 痛 
否 中 挣扎 了 一 段 时 间 后 ， 小 新 从 法 院 拿 到 一 份 当初 婚检 时 的 检验 报告 ， 
并 问 法 院 提 起 了 诉讼 ， 要 求 进行 婚检 的 妇幼 保健 院 承 担 贡 任 。 


事件 成 为 与 论 焦点 后 ， 永 城市 妇幼 保健 院 承 受 了 不 小 的 压力 ， 许 多 
人 都 认为 妇幼 保健 院 回 小 新 隐瞒 了 妻子 感染 艾滋 病毒 的 情况 才 导 致 了 塌 
剧 的 发 生 。 而 妇幼 保健 院 对 此 的 解释 是 ， 按 照 我 国有 关 法 律 ， 医 疗 机 构 
及 其 医务 人 员 应 当 对 患者 的 隐私 保密 。 婚 检 机 构 认 为 ， 目 己 只 有 权利 告 
诉 检查 者 小 时 本 人 ， 向 小 新 坦白 应 该 是 小 叶 自 己 的 责任 可 n 








这 则 报道 的 场景 和 征 信 几 乎 是 完全 一 样 。 一 方 是 一 个 人 的 隐私 ， 忆 
一 方 是 对 他 人 产生 危害 的 可 能 性 。 这 两 者 确实 应 该 加 以 权衡 ， 而 不 能 一 
股 脑 地 规定 要 彻底 保护 一 切 隐私 ， 或 者 说 所 有 的 隐私 必须 完全 公开 。 


征 信 间 题 是 人 类 文明 城市 化 到 了 一 定 程度 必然 引发 的 问题 ， 这 种 问 
题 在 祖 祖 寿 寿 一 直 居 住 的 农村 几乎 是 没有 巧 念 的。 一 个 人 家 境 如 何 ， 品 
行 如 何 ， 在 一 个 居住 了 几 十 年 的 只 有 一 千 多 口 人 甚至 更 少 的 小 山村 里 那 
几乎 是 尽 人 缘 知 ， 在 这 样 一 个 小 的 社会 环境 里 ， 人 和 人 之 间 的 距离 非常 
近 。 早 上 友 生 的 事情 ， 可 能 中 午 束 传 得 全 村 人 都 知道 ， 彼 此 了 解 的 程度 
如 此 之 深 ， 那 所 有 小 范围 内 的 风险 问题 都 能 自行 解决 了 一 一 不 确定 程度 
很 低 。 











但 是 城市 截然 不 同 ， 大 家 来 自 天 南海 北 五 湖 四 海 ， 有 很 多 人 在 高 楼 
大 厦 里 住 了 大 半 寿 子 可 能 一 个 单元 的 人 都 认 不 全 。 那 么 对 于 整个 社会 里 
的 更 为 复杂 的 协作 关系 如 何 协调 ? 这 种 新 社会 体系 下 的 关系 目 然 需要 把 
征 信 数 据 进 行 合法 化 管理 ， 让 人 们 把 它 当成 目 己 的 终生 名 乒 来 珍视 和 爱 
护 。 这 种 征 信 是 城市 人 之 间 协 作 的 保障 ， 它 的 变现 是 人 们 为 了 付出 一 些 





金钱 成 本 去 消除 人 信誉 的 不 确定 性 的 一 种 变现 方式 。 


[来 源 于 《北京 娱乐 信 报 》。 


18.5.8 3532: 宏观 数据 
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病人 ， 是 100 还 是 50， 这 些 数据 对 于 很 多 做 社会 学 和 病理 学 研究 的 人 是 
意义 和 有 价值 的 。 况 且 这 只 是 一 个 数字 ， 没 有 说 谁 具 体 得 了 这 种 病 ， 
也 就 不 涉及 隐私 ， 当 然 可 以 进行 交易 。 





其 他 一 切 的 宏观 统计 数据 理论 上 说 都 是 可 以 进行 交易 的 ， 前 提 必 须 
得 到 它 的 拥有 人 的 授权 。 这 也 好 理解 ， 虽 然 卖 汽车 是 合法 的 ， 但 是 总 不 
能 把 别人 家 的 汽车 随便 开 来 卖 摊 吧 。 


宏观 数据 的 价值 到 此 为 止 吗 ? 远 不 止 。 








在 互联 网 飓风 席 郑 整个 世界 的 时 候 ， 什 么 是 生存 的 最 终 能 创 
新 。 创 新 说 白 了 就 是 大 量 的 个 体 去 试 ， 大 量 的 试 错 中 有 个 别 试 对 的 活 下 
来 ， 这 个 融 是 成 功 的 创新 。 以 新 产品 市 场 研究 为 例 。 新 产品 市 场 研究 靠 
什么 ”当然 是 数据 。 作 为 一 个 产品 经 理 ， 或 者 一 个 对 产品 负责 任 的 人 ， 
需要 对 未 来 出 品 的 产品 做 一 个 评 佑 。 产 品 准备 卖 给 谁 ? 卖 多 少 ? 在 什么 
地 区 卖 ? 借助 什么 渠道 卖 ? 毛利 大 概 多 少 ? 产品 的 预期 生存 周期 是 多 
少 ? 有 办 法 消除 这 些 疑 问 的 不 确定 性 吗 ? 还 是 财 着 眼 去 试 ? 

















举 一 个 例子 。 如 果 想 开 一 个 店 。 会 在 哪里 选 址 ? ASTA? 怎么 来 


做 BP (Business Plan， 商 业 计 划 ) 。 需 要 了 解 的 信息 包括 各 街区 的 人 流 
量 信息 ; 在 茶 一 街区 人 流 信息 中 的 年 龄 段 比 例 ， 这 些 人 在 这 些 街区 购买 
对 应 产品 的 平均 预算 ， 这 些 人 是 喜欢 一 个 人 来 还 是 结伴 而 来 ， 在 哪些 时 
间 段 人 流量 会 比较 大 ， 大 到 什么 程度 。 





这 些 信 息 会 帮助 把 这 个 BP 充 实 起 来 ， 当 对 这 些 信息 有 了 比较 充分 
的 了 解 后 可 以 更 容易 去 做 决定 。 


如 果 街 区 的 人 流量 本 里 就 不 足 ， 甚 至 大 部 分 都 是 匆匆 的 过 客 ， 那 可 
能 开店 本 里 都 成 为 困难 了 。 


这 个 地 区 的 过 客 部 是 些 什 么 人 ， 是 一 些 上 下 学 回 家 的 小 朋友 ， 年 轻 
的 上 班 族 还 是 广场 舞 大 妈 们 ? 这 会 帮助 选择 ， 是 卖 甜 甜 痢 、 奶 杂 还 是 商 
SALE MAMIE. PPA, ea ATLA HORRI FLAS. 


他 们 每 天 的 预算 决定 了 卖 的 单 品 的 单价 ， 征 应 该 高 档次 高 规格 ， 
是 应 该 更 贴近 大 众 更 实惠 。 


一 个 人 来 还 是 结伴 来 是 不 一 样 的 ， 尤 其 是 结伴 来 的 人 是 两 务 关系 、 
情侣 关系 ， 还 是 男女 闺蜜 ? 这 决定 了 出 售 的 单 品 在 差异 化 上 应 该 迎合 哪 
些 人 的 习惯 。 是 应 该 精致 、 溪 漫 ， 还 是 搞怪 猎奇 





时 间 段 对 于 人 人 流 的 影响 也 间接 影响 到 人 力 成 本 ， 是 一 个 人 能 搞定 这 
个 事情 ， 还 是 要 两 个 人 全 职 ， 还 是 在 高 峰 段 屡 一 个 勤工俭学 的 学 生 帮 忙 








打 理 。 这 也 是 影响 预算 的 重要 因 系 。 


这 些 数 据 完 全 不 用 担心 没有 人 卖 ， 只 要 有 需求 ， 就 会 有 人 考虑 夹 ; 
只 要 这 种 数据 对 消除 不 确定 性 有 帮助 ， 那 就 会 有 市 场 ， 只 要 数据 的 提供 
还 有 利 可 图 ， 那 就 会 吸引 更 多 的 人 继续 加 入 数据 的 生产 与 提供 。 





刚刚 这 些 数据 ， 如 果 用 3000 元 能 买 到 ， 会 考 夸 购买 吗 ? 可 以 选择 花 
3000 元 买 下 它 ， 然 后 认真 阅读 和 研究 ， 也 可 以 选择 花 20 万 元 把 店 先 开 起 
来 ， 开 的 过 程 中 再 摸索 。 究 竟 哪 一 种 更 划算 ， 仁 者 见 仁 智者 见 智 。 














还 有 一 些 数据 ， 它 的 宏观 价值 会 更 容易 直接 被 人 看 到 。 例 ， 茶 地 区 
的 茶 种 疾病 的 意外 事故 、 发 病 率 、 分 布 年 龄 段 、 治 合 率 等 。 这 些 宏观 统 
计 信 息 不 涉及 任何 个 人 隐私 内 容 ， 有 价值 吗 ? 有! 谁 会 对 这 些 数据 感 兴 
趣 ? 人 至少 有 两 种 行业 会 对 这 种 数据 感 兴趣 。 一 个 是 保险 行业 ， 一 个 是 制 
药 行 业 。 保 险 公 司 购买 这 样 的 数据 用 来 设计 和 调整 险种 ， 制 药 三 购买 这 
些 数 据 用 来 研究 一 些 细 分 类 的 药品 。 这 些 信息 能 够 极 大 地 消除 不 确定 性 
帝 来 的 成 本 并 提高 产品 设计 的 针对 性 。 








18.5.4 ”场景 3: 画像 数据 





画像 数据 在 前 面 的 章节 中 多 次 提 到 。 画 像 数据 指 的 吏 是 一 个 人 、 一 
个 终 问 或 者 任何 一 个 物体 的 表述 标签 信息 。 这 些 标签 信息 ， 尤 其 是 针对 
人 的 画像 ， 虽 然 包 含 了 大 量 的 人 的 隐私 或 者 关键 性 的 描述 信息 ， 但 是 只 
要 把 握 一 点 ， 这 些 数据 里 面 不 要 轻易 定位 到 人 。 只 要 不 定位 到 人 ， 那 么 
这 些 画 像 信息 再 如 何 丰 军 也 不 能 算 作 是 侵犯 隐私 。 这 一 点 很 重要 ， 这 已 
经 给 了 人 们 变现 的 空间 。 











如 通过 一 个 MAC 地 址 ， 可 以 请 求 到 一 些 兴 趣 相 关 的 标签 。 这 个 显 
然 与 个 人 隐私 没什么 关系 。 通 过 一 个 人 的 手机 号 ， 能 够 请 求 到 一 些 关 于 
他 通话 时 长 或 者 网 络 流量 大 小 的 数据 。 这 个 算 隐 私 吗 ? 只 要 这 不 是 那 种 
他 不 想 让 别人 知道 的 数据 ， 就 不 能 算 隐 私 。 所 以 数据 的 开放 和 拥有 者 的 
授权 体系 应 该 是 大 数据 交易 和 变现 的 制度 性 和 技术 性 保障 根源 。 











18.6 小结 
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不 会 轻易 到 达 生 产量 的 上 限 ， 它 能 够 解放 生产 力 ， 从 这 个 角度 来 说 ， 它 
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附录 A VMware Workstation 的 安装 
A.1 VMware 简介 


VMware 是 由 VMware 公司 (VMware, Inc.) 开发， 业内 非常 著名 的 
虚拟 化 软件 。 它 使 用 简单 ， 基 于 图 形 化 管理 ， 而 且 效 率 非 常 高 。 


它 为 用 户 提供 了 多 个 版 本 ， 包 括 : VMware 工作 站 (VMware 
Workstation) 、VMware 服 务 器 (VMware Server) ~ VMware ESX 服 务 
器 (VMware ESX Server) ， 以 及 云端 版 本 等 。 





这 里 主要 为 读者 提供 VMware 的 昌 面 级 产品 VMware 工作 站 版 本 ， 读 
者 可 以 亲自 动手 实践 ， 在 不 破坏 Windows 工 作 环 境 下 ， 体 验 Linux 操 作 
系统 的 使 用 和 在 Linux 操 作 系 统 环 境 下 使 用 大 数据 热门 的 软件 。 





A.2 安装 前 的 准备 工作 


1. 人 硬件 配置 需求 





在 安装 软件 之 前 用 户 需 要 准备 足够 的 磁盘 空间 和 运行 时 所 占用 的 内 
存 ， 为 了 保证 大 数据 软件 流畅 运行 ， 至 少 保证 如 下 硬件 配置 。 





:CPU: Intel Core i3. 


.内 存 : 4.00GB. 
.硬盘 空间 : 30GB. 
2.VMware 下 载 方 法 


可 以 从 VMware 软件 的 官方 网 站 下 载 最 新 版 本 的 VMware。 最 新 版 本 
为 VMware Workstation 12， 下 载 地 址 如 


F: http://www.vmware.com/products/workstation/workstation-evaluation 


Oo 


如 果 读 者 使 用 的 是 windows 操 作 系统 ， 可 以 单 击 Download Now 按 钮 
进行 下 载 ， 网 页 内 容 如 图 A-1 所 示 。 


Download VMware Workstation Pro Trial 


WORKSTATIONS 
PRO 
E 


veas Wiowmenor T Pos t. eec Dame ed 


VMware Workstation 12 Pro for Windows 64-bit 


VMware Workstation 12 Pro for Linux 64-bit 





图 A-1 下 载 页 面 


VMware Workstation 为 商业 软件 ， 用 户 可 以 免费 试用 30 天 。 


下 载 完 成 后 ， 正 式 进 入 安装 环节 ， 首 先 运行 软件 ， 进 入 友好 的 安装 
问 导 界面 ， 如 图 A-2 所 示 。 


一 步 ， 来 到 “最 终 用 户 许 可 协议 ”界面 ， 同 意 后 进入 下 一 步 ， 如 图 
A-3 上 所 示 。 


欢迎 征用 VMware Workstation Pro 安装 向 导 


WORKSTATION. PRS EOS BA, 2735 VMware Workstation Pro 
PRO PA SET- kms DAETA BERROS. 


ci 
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版 要 所 有 1998-2015 VMware, Inc 保定 所 有 权利 。 本 
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图 A-2 ”安装 癌 导 界面 
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使 用 本 软件 都 将 受 此 最 终 用 户 许可 协议 各 条 款 的 约束 。 


重要 信息 ， 请 仔细 阅读 ; HBT, SRR ant. 
E (自若 人 或 法 人 入) BURR P YER], “本 
协议 ”) 的 约 划 。 如 时 您 不 同 塌 本 协议 的 条 款 ， 请 勿 下 载 、 
安装 或 使 用 本 软件 ， 您 必须 删 陈 本 软件 ， 或 在 三 十 (30) 天 ~ 
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图 A-3 “最 终 用 户 许 可 协议 ”界面 





继续 选择 安装 位 置 ， 这 里 选择 了 默认 安装 位 置 ， 读 者 可 以 根据 实际 
情况 单 击 “ 更 改 ” 按 钮 选择 磁 各 空 间 较 大 的 分 区 ， 继 续 单 击 “ 下 一 步 ” 按 
钮 ， 如 图 A-4 所 示 。 

进入 准备 安装 界面 ， 单 击 “ 安 装 ” 按 钮 后 开始 进行 VMware 的 安装 ， 
如 图 A-5 所 示 。 


当 安 装 进度 条 完成 时 ，VMware 软 件 即 可 安装 成 功 ， 如 图 A-6 所 示 。 





安 闭 成 功 后 会 提示 “安装 完成 ”， 单 击 “ 完 成 ?按钮 即 可 完成 VMware 
软件 的 安装 ， 如 图 A-7 所 示 。 
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图 A-5 准备 安装 界面 


正在 安装 VMware Workstation Pro 
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图 A-6 ”安装 进度 条 


J| VMware Workstation Pro 2% 
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附录 B CentOS 虚 拟 机 的 安装 方法 


B. 下 载 光盘 镜像 


访问 CentOS 官 方 网 站 : http://www.centos.org ， 下 载 最 新 版 本 的 
CentOS 系 统 安装 光盘 镜像 。 本 示例 中 下 载 地 址 如 
F: http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64- 


DVD-1511.iso 。 
B.2 ”创建 VMware 虚拟 机 


运行 安装 好 的 VMware 虚拟 机 ， 在 主 界面 单 击 “ 创 建新 虚拟 机 ? 按 
钮 ， 如 图 B-1 所 示 。 


进入 “新 建 虚拟 机 同 导 ?界面 。 单 击 “ 浏 览 ?按钮 选择 下 载 的 CentOS 7 
安装 镜像 ， 如 图 B-2 所 示 。 


an | 欢迎 使 用 VMware Workstation 


12 Player 


RAEN) 
ARENU ROMER - 


打开 虚拟 机 (0) 
T FREU. HAC CAS EE DE 


下 载 虚拟 设备 (W) 
ATRAER A- BUS. APE Plover HERH 


帮助 (E) 
EGENUD: 


HAERERE Lip E n xwmT 
die. MOREE 














图 B-1 单 击 “ 创 建新 虚拟 机 ”按钮 
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图 B-2 ”选择 CentOS 7 安装 镜像 


VMware 会 自动 检测 到 ISO 文件 对 应 的 操作 系统 类 型 ， 单 击 “ 下 一 


步 ” 按 钮 ， 进 入 虚拟 机 设置 部 分 ， 为 虚拟 机 起 一 个 好 识别 的 名 称 并 设置 
保存 位 置 ， 建 议 将 虚拟 机 保存 到 空间 充裕 的 分 区 ， 随 着 使 用 次 数 的 增 
多 ， 虚 拟 机 占用 磁盘 空间 会 逐渐 增 大 。 这 里 将 虚拟 机 安装 到 E 盘 下 的 目 
录 ， 如 图 B-3 所 示 。 


单 击 “ 下 一 步 ? 按 钮 ， 设 置 虚 拟 磁 盘 大 小 ， 需 要 注意 的 是 ， 分 配 的 破 
盘 空 间 不 会 立即 被 后 用 ， 随 着 存储 的 数据 增加 占用 空间 会 逐渐 增 大 。 这 
里 保持 默认 设置 即 可 ， 如 果 需 要 增加 磁盘 空间 ， 可 以 在 安装 系统 后 进行 
讨 加 。 单 击 “ 下 一 步 ? 按 钮 ， 完 成 基本 安装 ， 如 网 B-4 所 示 。 
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图 B-4 指定 磁盘 容量 


进入 安装 的 最 后 阶段 :“ 目 定义 硬件 界面 >， 通 过 这 个 界面 可 以 定义 
虚拟 机 支持 的 硬件 ， 这 里 保持 默认 设置 即 可 ， 单 击 “ 完 成 ”按钮 后 ， 开 始 
进行 CentOS 操 作 系 统 的 安装 。 


B.3 ”安装 CentOS 7 操作 系统 





CentOS 7 安装 光盘 镜像 引导 后 ， 会 出 现 安装 引导 界面 ， 在 这 个 界面 
下 可 以 进行 ISO 的 光 租 完整 性 检测 等 操作 。 安 装 新 的 CentOS 系 统 ， 在 这 
里 选择 Install CentOS 7 选项 即 可 ， 进 入 开始 安装 界面 ， 如 图 B-5 所 示 。 


首先 进入 语言 选择 界面 ， 这 里 在 下 拉 列 表 框 中 选择 “简体 中 文 〈 中 
ED ”选项 ， 并 单 击 “ 继 续 ” 按 钮 ， 如 图 B-6 所 示 。 





接 下 来 进入 安装 设置 部 分 ， 在 “软件 选择 ”选项 根据 虚拟 机 类 型 来 定 
制 软件 包 ， 如 图 B-7 所 示 。 

这 里 建议 初次 使 用 Linux 的 读者 选择 带 有 图 形 界 面 的 软件 包 ， 单 
击 “ 软 件 选 择 ” 按 钮 ， 在 列表 中 选择 “GNOME 桌 面 ” 单 选 按钮 后 ， 单 击 “ 完 
成 2 按钮， 如 图 B-8 所 示 。 
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图 B-5 ”开始 安装 界面 
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图 B-6 语言 选择 界面 
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图 B-7 ”安装 设置 
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图 B-8 “软件 选择 ”界面 





继续 设置 CentOS 系 统 的 安装 位 置 ， 单 击 “ 安 装 位 置 ”按钮 ， 选 择 “ 自 
动 配置 分 区 ? 单 选 按钮 ， 并 单 击 “ 完 成 按钮 即 可 ， 由 于 Linux 操 作 系统 的 
分 区 方式 较 灵 活 ， 不 推荐 初次 使 用 的 用 户 自 动 分 区 ， 避 免 删 除 重要 的 系 
统 文件 。 操 作 方 法 如 图 B-9 所 示 。 


完成 设置 后 , “开始 安装 ?按钮 已 经 可 以 使 用 了 ， 单 击 “ 开 始 安装 ” 按 
钮 进行 新 系统 的 安装 ， 如 图 B-10 所 示 。 





安装 进度 条 会 提示 安装 的 进展 ， 在 安装 过 程 中 ， 用 户 可 以 设置 


Linux 管 理 员 的 密码 ，Linux 操 作 系统 的 超级 管理 员 叫 做 root， 相 当 于 
Windows 中 的 Administrator， 单 击 “ROOT 密 码 ” 按 钮 ， 设 置 一 个 不 容易 被 
遗忘 的 密码 ， 在 对 CentOS 操 作 系 统 进行 管理 时 ， 会 用 到 这 个 账号 和 密 
码 。 除 了 root 用 户 ， 还 需要 为 Linux 添 加 一 个 非 管理 用 户 ， 用 于 日 常 使 
用 ， 这 里 可 以 根据 自己 的 习惯 创建 一 个 自己 喜欢 的 用 户 名 和 密码 ， 如 图 
B-11 所 示 。 








设置 完成 后 会 提示 “已 经 设置 ROOT 密码 ”， 等 待 进度 条 完成 系统 即 
可 成 功 安装 。 安 闭 完 成 后 单 击 “ 重 局 ”按钮 ， 就 可 以 进行 CentOS 系 统 的 使 
用 了 ， 如 图 B-12 所 示 。 
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图 B-9 设置 安装 位 置 
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KIB-10 ” 单 击 “开始 安装 ”按钮 
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图 B-12 ”完成 安装 


附录 C ”Python 语言 简介 


Python 是 一 种 面 同 对 象 的 解释 型 计算 机 程序 设计 语言 ， 由 Guido van 
Rossum 于 1989 年 发 明 ， 第 一 个 公开 发 行 版 发 行 于 1991 年 。 


Python 是 纯粹 的 目 由 软件 ， 它 的 源 代 码 和 解释 器 CPython 遵 循 
GPL (GNU General Public License) 协议 。 


Python 和 C 语 言 不 一 样 ， 它 是 一 种 脚本 语言 。C 语 言 在 写 完 源 代码 后 
古 需 要 编译 成 二 进 制 代码 才能 够 执行 的 ，Python 则 不 需要 ， 它 在 生产 坏 
境 中 出 现 仍 旧 是 源 代码 的 .py 文件 形式 ， 在 执行 的 瞬间 才 由 Python 解 释 器 
将 源 代码 转换 为 字 节 码 ， 然 后 再 由 Python 解 释 器 来 执行 这 些 字 节 码 。 





这 种 形式 的 好 处 是 不 需要 考虑 平 合 系统 的 问题 ， 可 以 和 Java 语 言 一 
样 “ 一 次 编写 到 处 执行 ”。 缺 点 也 是 显而易见 的 ， 就 是 每 次 进行 字 节 码 转 
换 和 字 节 码 执行 时 没有 直接 执行 二 进 制 的 效率 高 。 好 在 对 于 执行 效率 苛 
刻 的 场合 毕竟 较 少 ， 另 外 ， 随 着 计算 机 硬件 能 力 的 提升 ， 执 行 效 率 的 巴 
盾 也 变 得 不 明显 了 。 











和 其 他 计算 机 语言 一 样 ，Python 语 言 也 有 自己 的 一 套 语法 基础 。 有 
顺序 、 分 文 、 循 环 、 调 用 的 程序 组 织 结构 ， 以 及 数字 、 字 符 串 、 列 表 、 
元 组 、 集 合 等 多 种 数据 类 型 。 


1. 2X Python 


安装 Python 的 方法 不 止 一 种 ， 这 里 只 介绍 使 用 yum 安 装 Python 的 方 
Ie 


按照 默认 方式 安装 好 CentOS 7 操作 系统 后 ，Python 已 经 被 正确 安 
装 ， 可 以 执行 如 下 命令 查看: 





[root@localhost Desktop]# python -V 
Python 2.7.5 





2.Hello World 


Python Hello World 与 其 他 计算 机 语言 没什么 区 别 ， 而 且 更 加 简 
洁 ， 可 以 直接 在 交互 式 编程 环境 中 编写 : 











print < 


"Hello, 


Python: 


"4 





3.47 Eg Aij xit 


Python 脚本 文件 和 普通 的 文本 文件 没有 太 大 区 别 ， 一 般 以 .py 作为 后 


AX 
25 o 


VEMM 


#! 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
H 文件 名 : 


test.py 
if True: 


print "True" 
else: 


print "False" 





其 中 # 为 注释 标记 ， 如 果 在 一 行 中 使 用 #， 那 么 # 后 的 内 容 是 不 会 被 
解释 执行 的 。 


下 面 的 和 f 和 else 是 分 支 型 语句 ， 当 if 后 的 内 容 为 True (真实 ) 时 ， 则 
执行 f 所 辖 的 部 分 ， 否 则 执行 else 所 辖 的 部 分 。 





注意 Python 语 言 中 是 不 用 begin/end 或 {} 来 表示 执行 段落 的 起 止 的 ， 
这 里 的 让 和 else 需 要 左 侧 对 齐 ， 用 缩 进 来 表示 段落 所 辖 范 围 界 限 。 





4 变量 类 型 


Python 语言 中 标准 的 数据 类 型 有 几 种 : Numbers (HF) ~ 
Sting (字符 串 ) ~ List (列表 ) 、Tuple〈 元 组 ) Dictionary CE 
Hh) 





#! 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 


counter = 100 # 赋值 整 型 变量 


miles = 1000.0 £ 浮 点 型 


name = "John" # 字符 串 





print counter 
print miles 
print name 








这 上 段 代 码 演示 了 整数 型 数字 、 浮 点 型 数字 以 及 字符 串 类 型 的 赋值 和 
打印 操作 。 





/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
list = [ 'abcd'. 


786 , 


'john', 


70.2 ] 
tinylist = [123, 


'john'] 
print list # 输出 完整 列表 


print list[0] # 输出 列表 的 第 一 个 元 素 


print list[1: 


3] # 输出 第 二 个 至 第 三 个 元 素 


print list[2. 


] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 


print tinylist * 2 # 输出 列表 两 次 


print list + tinylist # 打印 组 合 的 列表 





这 段 代码 演示 的 是 列表 类 型 的 操作 ， 列 表 很 像 Java 语 言 中 的 数组 ， 
只 是 列表 允许 不 同类 型 的 数据 放 在 同一 个 列表 中 ， 而 数组 不 可 以 一 一 它 
只 能 要 求 所 有 的 元 素 类 型 一 致 。 





/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
tuple =< 


"abcd ' ， 


786 , 


70.2 » 


tinytuple = 


123, 


'! john'» 


print tuple # 输出 完整 元 组 


print tuple[0] # 输出 元 组 的 第 一 个 元 素 


print tuple[1: 


3] # 输出 第 二 个 至 第 三 个 元 素 


print tuple[2: 


] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 


print tinytuple * 2 # 输出 元 组 两 次 


print tuple + tinytuple # 打印 组 合 的 元 组 








这 段 代码 演示 的 是 元 组 类 型 的 操作 。 操 作 方 法 和 列表 很 像 ， 但 是 
Python 语 法 不 允许 对 元 组 中 的 元 素 进行 二 次 赋值 。 它 相当 于 只 读 类 型 的 
列表 。 





#! 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
dict = {} 
dict['one'] = "This is one" 


dict[2] = "This is two" 
tinydict = {'name': 


"john ' ， 
'code'. 
6734, 

'dept'. 


'sales'j 
print dict['one'] # 输出 键 为 


‘Tone! 的 值 


print dict[2] # 输出 键 为 


2 的 值 


print tinydict # 输出 完整 的 字典 


print tinydict.keys O 


# 输出 所 有 键 


print tinydict.values o 


# 输出 所 有 值 


IM 


这 上 段 代 码 演示 的 是 


T2 


HHL. 


N 


类 


型 


=e 


的 操作 。 


IM 


f 





典 类 型 有 些 像 Java 中 的 








HashMap， 是 通过 主键 Key 来 访问 对 应 的 Value 值 ， 而 不 是 靠 下 标 来 访 
EP 


5. 循 环 语 句 





#! 


/usr/bin/python 
count - 0 
while < 


count < 9»: 


print 'The count is: 


count 
count = count + 1 
print "Good bye! 











这 段 代码 演示 的 是 while 循 环 ，while 循 环 后 面 的 条 件 表 示 在 满足 条 
件 的 时 候 执 行 while 所 辖 的 程序 段 。 在 这 段 程序 中 表示 count<9 的 情况 
下 ， 执 行 下 面 的 两 行 语句 ， 不 包括 








print "Good bye! 








/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
for num in range < 


10, 


20) : 


Hox 


10 到 


20 之 问 的 数字 


for i in range: 


num : 


# 根据 因子 迭代 


if num%i == 0: 


# 确定 第 一 个 因子 


j-num/i # 计算 第 二 个 因子 


print '%d 等 于 


%d * %d' 96« 


num. 


yp 


break # 跳出 当前 循环 


else: 


# 循环 的 


else 部 分 


print num. 


"是 一 个 质数 





LTE BRE PPAR RB, 但 是 内 容 仍 然 很 简单 。 


这 是 循环 的 男 一 种 写法 一 一 for 循 环 ，for 循 坏 也 是 一 种 循环 ， 后 面 
写 出 的 是 一 个 循环 范围 。 这 里 是 一 个 二 重 循环 ， 也 就 是 两 个 循环 发 生 了 
嵌 套 一 一 在 一 个 循环 的 执行 中 有 男 一 个 人 循环。 外 层 循 环 是 让 num 在 10 和 
20 之 间 做 循环 ， 内 层 循 环 是 在 2 和 num 之 间 做 循环 。 





6. 函 数 





#! 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
H 定义 函数 


def printme: 


str ) : 


"打印 任何 传 入 的 字符 串 





print str; 


return: 


# 调用 函数 


printme ( 


"我 要 调用 用 户 自 定义 函数 ! 


printme < 


"再 次 调用 同一 函数 





函数 是 一 种 最 小 单位 的 代码 段 封 装 。 关 键 字 是 def，def 后 面 的 
printme 是 函数 名 ，str 是 参数 名 称 。 这 个 函数 的 内 容 就 是 直接 打印 传 入 的 





最 后 两 句 是 对 函数 的 调用 。 


7. 模 块 





#! 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
H 导入 模块 


import support 
# 现在 可 以 调用 模块 里 包含 的 函数 了 





support.print func: 


"Zara" » 





模块 是 一 种 大 单位 的 代码 段 集合 ， 例 如 ， 一 -1 M E 
有 多 个 函数 定义 ， 其 中 一 个 叫做 print_func 函 数 。 在 不 对 support.py 这 
模块 进行 引用 的 时 候 是 不 能 调用 print_func 函 数 的 。 上 面 这 段 代 码 中 ， 
import support 是 导入 support.py 模 块 ， 下 面 的 
support.print func ("Zara") 是 调用 support 中 的 print 函 数 ， 并 传 入 变 
量 "Zara" 作 为 参数 。 





from fib import Fibonacci 





这 是 导入 模块 的 为 一 种 写法 ， 区 别 是 它 能 够 导入 一 个 模块 的 一 部 分 
而 非 全 部 模块 代码 。 示 例 中 是 指 从 fb 这 个 模块 中 只 导入 Fibonacci 这 个 函 


BL. 
8. 小 结 


以 上 莽 是 Python 语言 中 所 涉及 的 最 基本 的 语法 。 而 强大 的 Python 所 
文 持 的 其 他 内 容 读 者 如 果 有 兴趣 可 以 再 找 一 些 专门 介绍 Python 的 资料 来 
学 习 ， 本 书 对 Python 基本 语法 的 介绍 到 此 为 止 。 





在 本 书 中 所 列举 的 示例 代码 中 ， 所 涉及 的 库 有 以 下 几 个 。 


(1) NumPy。NumPy 系 统 是 Python 的 一 种 开源 的 数值 计算 扩展 
库 。 它 提供 了 许多 高 级 的 数值 编程 工具 ， 如 和 矩阵 数据 类 型 、 矢 量 处 理 ， 
以 及 精密 的 运算 库 。 专 门 用 于 严格 的 数字 处 理 。 多 为 大 型 金融 公司 使 
用 。 核 心 的 科学 计算 组 织 ， 如 Lawrence Livermore、NASA 用 其 处 理 一 些 
本 来 使 用 C++、FORTRAN 或 MATLAB 等 所 做 的 任务 。 








(2) matplotlib。 一 个 专业 的 绘图 工具 库 ， 官 方 网 址 
为 http://matplotlib.org/ 。 





它 调 用 简单 ， 使 用 非常 方便 ， 在 配合 Python 进行 数据 挖掘 和 报表 制 
作 的 过 程 中 是 一 种 利器 。 


(3) SciPy。SciPy 是 一 球 方 便 、 易 于 使 用 、 专 为 科学 和 工程 设计 的 
Python 工 具 包 。 它 提供 的 内 容 很 丰富 ， 文 件 输入 输出 、 特 殊 函 数 、 线 性 
代数 运算 、 人 快速 傅 里 时 变换 、 统 计 与 随机 、 微 分 和 积分 、 图 像 处 理 等 诸 





多 封装 内 容 。 官 方 网 址 为 http:Wwww.scipy.org/ ， 读 者 如 果 有 兴趣 可 以 去 
了 解 更 多 的 内 容 。 


(4) Scikit-learn。Scikit-learn 是 最 著名 的 Python 机 器 学 习 库 之 一 ， 
在 附录 DD 中 会 做 比较 详细 的 介绍 。 


附录 D  Scikit-learnFE fj 4r 


Python 的 开源 社区 非常 活跃 ， 也 有 很 多 和 Java 等 开源 语言 一 样 的 杠 
架 或 库 体 系 ， 其 中 Scikit-learn 〈 简 写成 sklearn) 是 最 著名 的 Python 机 器 
学 习 库 之 一 。 官 方 网 址 为 http:/scikit-learn.org/stable/ 。 


sklearn 基 于 BSD 开 源 许可 证 ， 最 早 由 David Cournapeau 在 2007 年 发 
起 ， 目 前 也 是 由 社区 自愿 者 进行 维护 ， 经 年 累 月 ， 整 个 项 目的 内 容 已 经 
相当 丰富 了 ， 目 前 最 新 的 稳定 版 是 0.17 版 本 。 


用 户 手 册 内 容 也 很 友好 ， 才 盖 面 很 全 ， 包 括 有 监督 的 学 习 分 
类 ) 、 无 监督 的 学 习 〈 聚 类 ) 、 模 型 选择 与 评价 、 数 据 集 转 换 、 数 据 集 
提取 应 用 数据 示例 下 载 )、 大 规模 计算 集 略 、 计 算 效 率 七 大 部 分 。 


本 书 中 的 机 器 学 习 算法 大 多 使 用 skleam 库 完成 ， 主 要 涉及 
Supervised learning 和 Unsupervised learning 两 个 部 分 ， 相 信 它 也 能 帮助 读 
者 在 生产 生活 中 很 大 程度 地 提高 生产 效率 。 





在 安装 sklearn 之 前 请 确认 Python 已 经 安装 。 安 装 Python 的 方法 见 附 
KO: 


如 果 发 现 Python 软 件 未 被 正确 安装 ， 可 以 使 用 CentOS 系 统 上 自 带 的 包 
管理 工具 “yum” 进 行 安装 。 安 装 方法 如 下 : 





[root@localhost Desktop]# yum install - 


y python 





然后 安装 sklearn。sklearm 的 安装 很 简单 ， 只 要 能 够 连接 上 互联 网 ， 
直接 使 用 pip 安 装 即 可 : 





$ pip install - 


U scikit-learn 





附录 EE FANN for Python 安装 


前 往 FANN 官 方 网 站 : http://leenissen.dk/fann/wp/download/ 。 单 击 
Download 按 钮 ， 进 入 下 载 页 面 ， 如 图 E-1 所 示 。 








f Home » Download | 





Download 


Download FANN Library Version 2.2.0 


The latest version of FANN is always available in the github repository and for most uses, that it Ihe version that should be used. 


This page includes the download for the FANN C/C library, for Graphical Interfaces go in the Graphical Interface page and fcr bindings 
Jn other languages go to he Language Bndings page 


m 
C/C++ Library Source Code for all platforms including examples and windows DLLILIb FANN- 
files. Support for Visual Studio 2010 as well as cross platform compilation with CMAKE. 220- 

Source zip 





FANN Installation Guide 
Quick install quida for tho library 


For older versions of FANN go to the sourceforge Download Page 


图 E-1 下 载 页 面 


解压 缩 : 





$ unzip FANN-2.2.0-Source.zip 








$ cmake . 
$ make install 





附录 F 群众 眼中 的 大 数据 


在 本 书 成 书 的 过 程 中 ， 笔 者 试 着 采访 过 一 些 “ 群 众 ”， 让 他 们 说 说 他 
们 眼中 的 大 数据 一 词 是 什么 概念 ， 得 到 了 很 多 有 趣 的 说 法 。 





da shu ju hao chi ma? 


— FNN, DILIT 





大 数据 并 不 一 定 是 数据 大 ， 而 是 通过 大 数据 分 析 挖 掘 、 分 析 方 法 使 
得 数据 的 价值 大 大 放大 。 

可 能 很 多 人 还 会 说 大 数据 是 炒作 ， 我 认为 “存在 即 合理 ”现在 市 场 
上 做 大 数据 的 公司 民 劳 不 齐 ， 也 说 明 目 前 正 处 于 大 数据 快速 发 展 阶段 ， 
我 们 也 逐步 感受 到 大 数据 带 来 的 便利 ， 比 如 智 意 城市 项 目 、 生 物 基因 检 
测 每。 如 果 你 处 于 公司 的 决策 层 ， 有 数据 做 支撑 你 会 更 有 底气 。 


SAX. BOR NIM 





1) OL TEBE, BARAER, IBI — 38. RARAKITAN 
古 案 头 厚 厚 的 文档 越 来 越 少 ， 服 务 群 众 的 效率 越 来 越 遍 。 林 、 人 、 企 在 
数据 的 结合 相 比 以 前 简单 的 分 类 ， 等 着 群众 来 办 事 的 方式 变 成 了 能 主动 
跑 下 去 。 








一 一 齐 波 道 ， 公 务 员 


大 数据 咏 ， 数 据 量 大 、 数 据 种 类 多 样 、 有 价值 。 比 如 之 前 我 做 过 的 
保险 的 一 些 项 目 ， 他 们 得 到 购买 保险 的 客户 ， 根 据 数据 分 析 ， 更 好 地 推 
广 他 们 的 保险 ， 把 不 同 需 求 的 保险 推 给 不 同 的 人 。 


大 数据 : 抽象 出 的 真实 世界 。 





学 好 大 数据 思维 ， 掌 握 未 来 友 展 之 道 ! 


加 上 ，IT 技 术 论 坛 创始 人 





大 数据 .…… 开 始 就 是 认为 和 数字 有 关系 ， 基 本 认为 就 是 和 数字 打 区 
道 ， 听 到 最 多 的 就 是 Python 〈 也 不 知道 是 啥 ) ， 虽 然 直 至 现在 也 不 能 深 
入 了 解 大 数据 ， 但 是 目 己 觉得 大 数据 要 具有 很 强大 的 洞 肾 力 和 人 逻辑 分 析 
能 力 ， 对 此 自己 也 充满 好 奇 ， 计 划 在 闲暇 时 间 通 过 阅读 书籍 或 和 大 
师 “ 白 话 *” 了 解 大 数据 (小 白 选 手 不 要 理 ) 。 














一 一 王 月 ， 德 语 专 业 大 学 生 











大 数据 就 是 在 一 堆 楷 杂 的 事物 里 面 找 规律 找 共 性 ， 它 应 该 能 够 影响 
人 类 的 生活 .…... 能 让 我 们 变 成 想象 中 的 外 星人 吗 ? 


一 一 李娜 ， 局 级 人 力 资 源 经 理 


大 数据 是 真正 的 新 能 源 。 它 将 成 为 每 一 个 现代 企业 的 重要 资产 ， 并 
在 人 类 商业 社会 演进 的 道路 中 扮演 关键 作用 。 





一 一 本 力 ，CEO 


大 家 的 回答 是 如 此 丰富， 也 从 一 个 侧面 说 明 ， 大 数据 就 是 一 种 见 仁 
见 智 的 艺术 性 的 产业 ， 它 会 在 各 个 领域 对 各 个 行业 的 人 们 持续 不 断 地 产 
生 深 远 的 影响 。 
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嗯 ,除了 上 次 口头 说 的 3 个 要 
求 以 外 ， 还 有 个 108 页 A4 纸 的 
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e - 承蒙 哥 错 爱 ， 不 过 偶 只 能 业余 
搞 了 ， 这 么 大 活 儿 怎么 也 得 给 
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B: - for n in range(1,3): print "gi | 
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eo < print " 嗯 ， 重 要 的 事情 说 三 遍 " 


*' s, 
\— J 








”昨天 给 你 找 的 笔 误 改 了 吗 ? 


CE 
LS 


哦 。 前 天 给 你 找 的 笔 误 改 了 
吗 ? 

















、 羡 你 是 不 是 不 会 说 别 的 ? 
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上 午 12:14 @ 37% um 


详情 
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sr 受 死 吧 ， 卷 织 神 经 网 络 
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Q 上 午 11:46 
卷 积 是 什么 ? 是 不 是 就 是 像 汤 头 
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ea 哥 ,我 打 刷 针 了 ， 求 安慰 





Q : 没事 ， 吊 针 只 打 了 一 只 手 ， 还 
有 一 只 手 能 画 6S 





— 对 对 ， 福 田 有 两 家 新 开 的 ， 还 
| 有 南山 也 有 一 家 ， 还 有 














. print "前 几 章 内 容 会 不 会 有 点 
Tux?" 
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- 没事 ,我 认识 好 几 个 三 甲 医院 
运动 医学 科 的 大 夫 ， 那 手 
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